《Colab使用训练指南》

2024-05-24 07:58
文章标签 使用 训练 指南 colab

本文主要是介绍《Colab使用训练指南》,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

简介

  • Colaboratory 是一个免费的 Jupyter 笔记本环境

  • 借助 Colaboratory,可以编写和执行代码、保存和共享分析结果,以及利用强大的计算资源,所有这些都可通过浏览器免费使用

  • Colab 支持大多数主流浏览器,并且在 Chrome、Firefox 和 Safari 的最新版本上进行了最全面的测试。

  • 总体使用量限额、空闲超时时长、虚拟机最长生命周期、可用 GPU 类型以及其他因素都会随机变化

  • Colab地址

  • google云盘 (可以用来上传自定义数据集)

使用

  • 进入Colab

  • 登陆google账号

  • 点击文件——新建笔记本,进入.ipynb界面

  • 查看和配置

    • 查看pytorch版本

    • 查看是否可以使用cuda(如果不可以,需要修改运行设置)

    • 点击修改——笔记本设置——硬件加速度器

      *

    • 查看显卡配置(随机,大部分是K80

      • !nvidia-smi (命令行运行,前面要加!

如何挂载谷歌云盘

  • Colab的运行原始路径不是谷歌云盘所在路径,所以需要挂载到远程主机上
from google.colab import drive
drive.mount('/content/gdrive')
  • 点击链接,登录Google账户,获取授权码,复制粘贴回车,提示Mounted at /content/gdrive则挂载成功

  • 上传数据文件到Google云盘,检查文件

  • 如果想要更改运行目录,直接运行文件

    • 修改运行目录
    import os
    os.chdir("/content/gdrive/MyDrive/Colab Notebooks/MyCode")
    
    • ​ 使用命令行运行
    ! python example.py
    

测试

  • MNIST数据集:训练数据60000,测试数据10000
  • LeNet模型
  • 分别测试CPU版本、GPU版本、多GPU版本训练
  • 分别使用torchvision数据集和本地上传数据集测试

CPU版本

  • train_gpu_cpu.py,设置runing_mode='cpu'
import torchvision
import torch
from torch import nn
from torch.utils.data import DataLoader
from torchvision import transforms
import time"""
测试在Colab上训练CPUGPU
"""class LeNet(nn.Module):def __init__(self):super(LeNet, self).__init__()self.model = nn.Sequential(nn.Conv2d(1, 6, kernel_size=5),nn.MaxPool2d(kernel_size=2),nn.Conv2d(6, 16, kernel_size=5),nn.MaxPool2d(kernel_size=2),nn.Flatten(),nn.Linear(16*4*4, 120),nn.Linear(120, 84),nn.Linear(84, 10))def forward(self, x):output = self.model(x)return outputtrain_datasets = torchvision.datasets.MNIST(root = r'../data',download=True,train=True,transform=transforms.ToTensor()
)
train_dataloader = DataLoader(dataset=train_datasets,batch_size=64
)test_datasets = torchvision.datasets.MNIST(root = r'../data',train=False,download=True,transform=transforms.ToTensor()
)
test_dataloader = DataLoader(dataset=test_datasets,batch_size=64
)train_datasets_size = len(train_datasets)
test_datasets_size = len(test_datasets)
print("训练集数量为:{}".format(train_datasets_size))
print("测试集数量为:{}".format(test_datasets_size))runing_mode = "gpu" # cpu,gpu, gpus
if runing_mode == "gpu" and torch.cuda.is_available():print("use cuda")device = torch.device("cuda")
else:print("use cpu")device = torch.device("cpu")model = LeNet()
model.to(device)loss_fn = nn.CrossEntropyLoss()
loss_fn.to(device)
learning_rate = 1e-2
optim = torch.optim.SGD(model.parameters(), lr=learning_rate)epoch = 10
train_step, test_step = 0, 0
for i in range(epoch):print("~~~~~~~~~~~~第{}轮训练开始~~~~~~~~~~~".format(i+1))start = time.time()model.train()for data in train_dataloader:imgs, targets = dataimgs, targets = imgs.to(device), targets.to(device)output = model(imgs)loss = loss_fn(output, targets)optim.zero_grad()loss.backward()optim.step()train_step += 1if train_step % 200 == 0:print("第{}次训练,loss={:.3f}".format(train_step, loss.item()))#model.eval()with torch.no_grad():test_loss, true_num = 0, 0for data in test_dataloader:imgs, targets = dataimgs, targets = imgs.to(device), targets.to(device)output = model(imgs)test_loss += loss_fn(output, targets)true_num += (output.argmax(1) == targets).sum()end = time.time()print("第{}轮测试集上的loss:{:.3f}, 正确率为:{:.3f}%,耗时:{:.3f}".format(test_step+1, test_loss.item(), 100 * true_num / test_datasets_size, end-start))test_step += 1

GPU版本

  • train_gpu_cpu.py,设置runing_mode="gpu"

测试本地数据挂载

  • 上传数据mnist.matGoogle云盘

  • 挂载云盘

  • 检查文件是否存在

  • train_with_data_upload.py

import torchvision, torch
from torch import nn
from torch.utils.data import DataLoader
from torchvision import transforms
import time
from torch.utils.data import Dataset
import scipy.io as sio
import numpy as np"""
测试训练自定义数据集
"""class mnistDataset(Dataset): # 继承Datasetdef __init__(self, imgs, targets):self.imgs = imgsself.targets = targetsdef __len__(self):return self.targets.shape[0]def __getitem__(self, idx):target = self.targets[idx,0]img = self.imgs[idx].reshape((20, 20)).Timg_tensor = torch.tensor(img, dtype=torch.float).view(-1, 20, 20)return img_tensor, np.long(target)class LeNet(nn.Module):def __init__(self):super(LeNet, self).__init__()self.model = nn.Sequential(nn.Conv2d(1, 6, kernel_size=5),nn.MaxPool2d(kernel_size=2),nn.Conv2d(6, 16, kernel_size=3),# nn.MaxPool2d(kernel_size=2),nn.Flatten(),nn.Linear(16*6*6, 120),nn.Linear(120, 84),nn.Linear(84, 10))def forward(self, x):output = self.model(x)return output# 加载自定义数据集
path = './gdrive/MyDrive/Data/mnist.mat'
data = sio.loadmat(path)
imgs, targets = data['X'], data['y'] % 10   # 5000*400, 5000*1np.random.seed(222)
np.random.shuffle(imgs)
np.random.seed(222)
np.random.shuffle(targets)
train_imgs, test_imgs = np.split(imgs, [4000])
train_targets, test_targets = np.split(targets, [4000])train_datasets = mnistDataset(train_imgs, train_targets)
train_dataloader = DataLoader(dataset=train_datasets,batch_size=32,shuffle=True
)test_datasets = mnistDataset(test_imgs, test_targets)
test_dataloader = DataLoader(dataset=test_datasets,batch_size=32,shuffle=True
)train_datasets_size = len(train_datasets)
test_datasets_size = len(test_datasets)
print("训练集数量为:{}".format(train_datasets_size))
print("测试集数量为:{}".format(test_datasets_size))runing_mode = "gpu" # cpu,gpu, gpus
if runing_mode == "gpu" and torch.cuda.is_available():print("use cuda")device = torch.device("cuda")
else:print("use cpu")device = torch.device("cpu")model = LeNet()
model.to(device)loss_fn = nn.CrossEntropyLoss()
loss_fn.to(device)
learning_rate = 1e-2
optim = torch.optim.Adam(model.parameters(), lr=learning_rate)epoch = 20
train_step, test_step = 0, 0
for i in range(epoch):print("~~~~~~~~~~~~第{}轮训练开始~~~~~~~~~~~".format(i+1))start = time.time()model.train()for data in train_dataloader:imgs, targets = dataimgs, targets = imgs.to(device), targets.to(device)output = model(imgs)loss = loss_fn(output, targets)optim.zero_grad()loss.backward()optim.step()train_step += 1if train_step % 200 == 0:print("第{}次训练,loss={:.3f}".format(train_step, loss.item()))#model.eval()with torch.no_grad():test_loss, true_num = 0, 0for data in test_dataloader:imgs, targets = dataimgs, targets = imgs.to(device), targets.to(device)output = model(imgs)test_loss += loss_fn(output, targets)true_num += (output.argmax(1) == targets).sum()end = time.time()print("第{}轮测试集上的loss:{:.3f}, 正确率为:{:.3f}%,耗时:{:.3f}".format(test_step+1, test_loss.item(), 100 * true_num / test_datasets_size, end-start))test_step += 1

参考

如何正确地使用Google Colab

Tesla K80 GPU shown instead of Tesla T4

这篇关于《Colab使用训练指南》的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/997821

相关文章

如何使用celery进行异步处理和定时任务(django)

《如何使用celery进行异步处理和定时任务(django)》文章介绍了Celery的基本概念、安装方法、如何使用Celery进行异步任务处理以及如何设置定时任务,通过Celery,可以在Web应用中... 目录一、celery的作用二、安装celery三、使用celery 异步执行任务四、使用celery

使用Python绘制蛇年春节祝福艺术图

《使用Python绘制蛇年春节祝福艺术图》:本文主要介绍如何使用Python的Matplotlib库绘制一幅富有创意的“蛇年有福”艺术图,这幅图结合了数字,蛇形,花朵等装饰,需要的可以参考下... 目录1. 绘图的基本概念2. 准备工作3. 实现代码解析3.1 设置绘图画布3.2 绘制数字“2025”3.3

Jsoncpp的安装与使用方式

《Jsoncpp的安装与使用方式》JsonCpp是一个用于解析和生成JSON数据的C++库,它支持解析JSON文件或字符串到C++对象,以及将C++对象序列化回JSON格式,安装JsonCpp可以通过... 目录安装jsoncppJsoncpp的使用Value类构造函数检测保存的数据类型提取数据对json数

python使用watchdog实现文件资源监控

《python使用watchdog实现文件资源监控》watchdog支持跨平台文件资源监控,可以检测指定文件夹下文件及文件夹变动,下面我们来看看Python如何使用watchdog实现文件资源监控吧... python文件监控库watchdogs简介随着Python在各种应用领域中的广泛使用,其生态环境也

Python中构建终端应用界面利器Blessed模块的使用

《Python中构建终端应用界面利器Blessed模块的使用》Blessed库作为一个轻量级且功能强大的解决方案,开始在开发者中赢得口碑,今天,我们就一起来探索一下它是如何让终端UI开发变得轻松而高... 目录一、安装与配置:简单、快速、无障碍二、基本功能:从彩色文本到动态交互1. 显示基本内容2. 创建链

springboot整合 xxl-job及使用步骤

《springboot整合xxl-job及使用步骤》XXL-JOB是一个分布式任务调度平台,用于解决分布式系统中的任务调度和管理问题,文章详细介绍了XXL-JOB的架构,包括调度中心、执行器和Web... 目录一、xxl-job是什么二、使用步骤1. 下载并运行管理端代码2. 访问管理页面,确认是否启动成功

使用Nginx来共享文件的详细教程

《使用Nginx来共享文件的详细教程》有时我们想共享电脑上的某些文件,一个比较方便的做法是,开一个HTTP服务,指向文件所在的目录,这次我们用nginx来实现这个需求,本文将通过代码示例一步步教你使用... 在本教程中,我们将向您展示如何使用开源 Web 服务器 Nginx 设置文件共享服务器步骤 0 —

Java中switch-case结构的使用方法举例详解

《Java中switch-case结构的使用方法举例详解》:本文主要介绍Java中switch-case结构使用的相关资料,switch-case结构是Java中处理多个分支条件的一种有效方式,它... 目录前言一、switch-case结构的基本语法二、使用示例三、注意事项四、总结前言对于Java初学者

Golang使用minio替代文件系统的实战教程

《Golang使用minio替代文件系统的实战教程》本文讨论项目开发中直接文件系统的限制或不足,接着介绍Minio对象存储的优势,同时给出Golang的实际示例代码,包括初始化客户端、读取minio对... 目录文件系统 vs Minio文件系统不足:对象存储:miniogolang连接Minio配置Min

使用Python绘制可爱的招财猫

《使用Python绘制可爱的招财猫》招财猫,也被称为“幸运猫”,是一种象征财富和好运的吉祥物,经常出现在亚洲文化的商店、餐厅和家庭中,今天,我将带你用Python和matplotlib库从零开始绘制一... 目录1. 为什么选择用 python 绘制?2. 绘图的基本概念3. 实现代码解析3.1 设置绘图画