《Colab使用训练指南》

2024-05-24 07:58
文章标签 使用 训练 指南 colab

本文主要是介绍《Colab使用训练指南》,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

简介

  • Colaboratory 是一个免费的 Jupyter 笔记本环境

  • 借助 Colaboratory,可以编写和执行代码、保存和共享分析结果,以及利用强大的计算资源,所有这些都可通过浏览器免费使用

  • Colab 支持大多数主流浏览器,并且在 Chrome、Firefox 和 Safari 的最新版本上进行了最全面的测试。

  • 总体使用量限额、空闲超时时长、虚拟机最长生命周期、可用 GPU 类型以及其他因素都会随机变化

  • Colab地址

  • google云盘 (可以用来上传自定义数据集)

使用

  • 进入Colab

  • 登陆google账号

  • 点击文件——新建笔记本,进入.ipynb界面

  • 查看和配置

    • 查看pytorch版本

    • 查看是否可以使用cuda(如果不可以,需要修改运行设置)

    • 点击修改——笔记本设置——硬件加速度器

      *

    • 查看显卡配置(随机,大部分是K80

      • !nvidia-smi (命令行运行,前面要加!

如何挂载谷歌云盘

  • Colab的运行原始路径不是谷歌云盘所在路径,所以需要挂载到远程主机上
from google.colab import drive
drive.mount('/content/gdrive')
  • 点击链接,登录Google账户,获取授权码,复制粘贴回车,提示Mounted at /content/gdrive则挂载成功

  • 上传数据文件到Google云盘,检查文件

  • 如果想要更改运行目录,直接运行文件

    • 修改运行目录
    import os
    os.chdir("/content/gdrive/MyDrive/Colab Notebooks/MyCode")
    
    • ​ 使用命令行运行
    ! python example.py
    

测试

  • MNIST数据集:训练数据60000,测试数据10000
  • LeNet模型
  • 分别测试CPU版本、GPU版本、多GPU版本训练
  • 分别使用torchvision数据集和本地上传数据集测试

CPU版本

  • train_gpu_cpu.py,设置runing_mode='cpu'
import torchvision
import torch
from torch import nn
from torch.utils.data import DataLoader
from torchvision import transforms
import time"""
测试在Colab上训练CPUGPU
"""class LeNet(nn.Module):def __init__(self):super(LeNet, self).__init__()self.model = nn.Sequential(nn.Conv2d(1, 6, kernel_size=5),nn.MaxPool2d(kernel_size=2),nn.Conv2d(6, 16, kernel_size=5),nn.MaxPool2d(kernel_size=2),nn.Flatten(),nn.Linear(16*4*4, 120),nn.Linear(120, 84),nn.Linear(84, 10))def forward(self, x):output = self.model(x)return outputtrain_datasets = torchvision.datasets.MNIST(root = r'../data',download=True,train=True,transform=transforms.ToTensor()
)
train_dataloader = DataLoader(dataset=train_datasets,batch_size=64
)test_datasets = torchvision.datasets.MNIST(root = r'../data',train=False,download=True,transform=transforms.ToTensor()
)
test_dataloader = DataLoader(dataset=test_datasets,batch_size=64
)train_datasets_size = len(train_datasets)
test_datasets_size = len(test_datasets)
print("训练集数量为:{}".format(train_datasets_size))
print("测试集数量为:{}".format(test_datasets_size))runing_mode = "gpu" # cpu,gpu, gpus
if runing_mode == "gpu" and torch.cuda.is_available():print("use cuda")device = torch.device("cuda")
else:print("use cpu")device = torch.device("cpu")model = LeNet()
model.to(device)loss_fn = nn.CrossEntropyLoss()
loss_fn.to(device)
learning_rate = 1e-2
optim = torch.optim.SGD(model.parameters(), lr=learning_rate)epoch = 10
train_step, test_step = 0, 0
for i in range(epoch):print("~~~~~~~~~~~~第{}轮训练开始~~~~~~~~~~~".format(i+1))start = time.time()model.train()for data in train_dataloader:imgs, targets = dataimgs, targets = imgs.to(device), targets.to(device)output = model(imgs)loss = loss_fn(output, targets)optim.zero_grad()loss.backward()optim.step()train_step += 1if train_step % 200 == 0:print("第{}次训练,loss={:.3f}".format(train_step, loss.item()))#model.eval()with torch.no_grad():test_loss, true_num = 0, 0for data in test_dataloader:imgs, targets = dataimgs, targets = imgs.to(device), targets.to(device)output = model(imgs)test_loss += loss_fn(output, targets)true_num += (output.argmax(1) == targets).sum()end = time.time()print("第{}轮测试集上的loss:{:.3f}, 正确率为:{:.3f}%,耗时:{:.3f}".format(test_step+1, test_loss.item(), 100 * true_num / test_datasets_size, end-start))test_step += 1

GPU版本

  • train_gpu_cpu.py,设置runing_mode="gpu"

测试本地数据挂载

  • 上传数据mnist.matGoogle云盘

  • 挂载云盘

  • 检查文件是否存在

  • train_with_data_upload.py

import torchvision, torch
from torch import nn
from torch.utils.data import DataLoader
from torchvision import transforms
import time
from torch.utils.data import Dataset
import scipy.io as sio
import numpy as np"""
测试训练自定义数据集
"""class mnistDataset(Dataset): # 继承Datasetdef __init__(self, imgs, targets):self.imgs = imgsself.targets = targetsdef __len__(self):return self.targets.shape[0]def __getitem__(self, idx):target = self.targets[idx,0]img = self.imgs[idx].reshape((20, 20)).Timg_tensor = torch.tensor(img, dtype=torch.float).view(-1, 20, 20)return img_tensor, np.long(target)class LeNet(nn.Module):def __init__(self):super(LeNet, self).__init__()self.model = nn.Sequential(nn.Conv2d(1, 6, kernel_size=5),nn.MaxPool2d(kernel_size=2),nn.Conv2d(6, 16, kernel_size=3),# nn.MaxPool2d(kernel_size=2),nn.Flatten(),nn.Linear(16*6*6, 120),nn.Linear(120, 84),nn.Linear(84, 10))def forward(self, x):output = self.model(x)return output# 加载自定义数据集
path = './gdrive/MyDrive/Data/mnist.mat'
data = sio.loadmat(path)
imgs, targets = data['X'], data['y'] % 10   # 5000*400, 5000*1np.random.seed(222)
np.random.shuffle(imgs)
np.random.seed(222)
np.random.shuffle(targets)
train_imgs, test_imgs = np.split(imgs, [4000])
train_targets, test_targets = np.split(targets, [4000])train_datasets = mnistDataset(train_imgs, train_targets)
train_dataloader = DataLoader(dataset=train_datasets,batch_size=32,shuffle=True
)test_datasets = mnistDataset(test_imgs, test_targets)
test_dataloader = DataLoader(dataset=test_datasets,batch_size=32,shuffle=True
)train_datasets_size = len(train_datasets)
test_datasets_size = len(test_datasets)
print("训练集数量为:{}".format(train_datasets_size))
print("测试集数量为:{}".format(test_datasets_size))runing_mode = "gpu" # cpu,gpu, gpus
if runing_mode == "gpu" and torch.cuda.is_available():print("use cuda")device = torch.device("cuda")
else:print("use cpu")device = torch.device("cpu")model = LeNet()
model.to(device)loss_fn = nn.CrossEntropyLoss()
loss_fn.to(device)
learning_rate = 1e-2
optim = torch.optim.Adam(model.parameters(), lr=learning_rate)epoch = 20
train_step, test_step = 0, 0
for i in range(epoch):print("~~~~~~~~~~~~第{}轮训练开始~~~~~~~~~~~".format(i+1))start = time.time()model.train()for data in train_dataloader:imgs, targets = dataimgs, targets = imgs.to(device), targets.to(device)output = model(imgs)loss = loss_fn(output, targets)optim.zero_grad()loss.backward()optim.step()train_step += 1if train_step % 200 == 0:print("第{}次训练,loss={:.3f}".format(train_step, loss.item()))#model.eval()with torch.no_grad():test_loss, true_num = 0, 0for data in test_dataloader:imgs, targets = dataimgs, targets = imgs.to(device), targets.to(device)output = model(imgs)test_loss += loss_fn(output, targets)true_num += (output.argmax(1) == targets).sum()end = time.time()print("第{}轮测试集上的loss:{:.3f}, 正确率为:{:.3f}%,耗时:{:.3f}".format(test_step+1, test_loss.item(), 100 * true_num / test_datasets_size, end-start))test_step += 1

参考

如何正确地使用Google Colab

Tesla K80 GPU shown instead of Tesla T4

这篇关于《Colab使用训练指南》的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/997821

相关文章

Spring Boot结成MyBatis-Plus最全配置指南

《SpringBoot结成MyBatis-Plus最全配置指南》本文主要介绍了SpringBoot结成MyBatis-Plus最全配置指南,包括依赖引入、配置数据源、Mapper扫描、基本CRUD操... 目录前言详细操作一.创建项目并引入相关依赖二.配置数据源信息三.编写相关代码查zsRArly询数据库数

Spring Boot3虚拟线程的使用步骤详解

《SpringBoot3虚拟线程的使用步骤详解》虚拟线程是Java19中引入的一个新特性,旨在通过简化线程管理来提升应用程序的并发性能,:本文主要介绍SpringBoot3虚拟线程的使用步骤,... 目录问题根源分析解决方案验证验证实验实验1:未启用keep-alive实验2:启用keep-alive扩展建

SpringBoot启动报错的11个高频问题排查与解决终极指南

《SpringBoot启动报错的11个高频问题排查与解决终极指南》这篇文章主要为大家详细介绍了SpringBoot启动报错的11个高频问题的排查与解决,文中的示例代码讲解详细,感兴趣的小伙伴可以了解一... 目录1. 依赖冲突:NoSuchMethodError 的终极解法2. Bean注入失败:No qu

使用Java实现通用树形结构构建工具类

《使用Java实现通用树形结构构建工具类》这篇文章主要为大家详细介绍了如何使用Java实现通用树形结构构建工具类,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录完整代码一、设计思想与核心功能二、核心实现原理1. 数据结构准备阶段2. 循环依赖检测算法3. 树形结构构建4. 搜索子

GORM中Model和Table的区别及使用

《GORM中Model和Table的区别及使用》Model和Table是两种与数据库表交互的核心方法,但它们的用途和行为存在著差异,本文主要介绍了GORM中Model和Table的区别及使用,具有一... 目录1. Model 的作用与特点1.1 核心用途1.2 行为特点1.3 示例China编程代码2. Tab

SpringBoot使用OkHttp完成高效网络请求详解

《SpringBoot使用OkHttp完成高效网络请求详解》OkHttp是一个高效的HTTP客户端,支持同步和异步请求,且具备自动处理cookie、缓存和连接池等高级功能,下面我们来看看SpringB... 目录一、OkHttp 简介二、在 Spring Boot 中集成 OkHttp三、封装 OkHttp

JavaScript错误处理避坑指南

《JavaScript错误处理避坑指南》JavaScript错误处理是编程过程中不可避免的部分,它涉及到识别、捕获和响应代码运行时可能出现的问题,本文将详细给大家介绍一下JavaScript错误处理的... 目录一、错误类型:三大“杀手”与应对策略1. 语法错误(SyntaxError)2. 运行时错误(R

使用Python实现获取网页指定内容

《使用Python实现获取网页指定内容》在当今互联网时代,网页数据抓取是一项非常重要的技能,本文将带你从零开始学习如何使用Python获取网页中的指定内容,希望对大家有所帮助... 目录引言1. 网页抓取的基本概念2. python中的网页抓取库3. 安装必要的库4. 发送HTTP请求并获取网页内容5. 解

使用Python实现网络设备配置备份与恢复

《使用Python实现网络设备配置备份与恢复》网络设备配置备份与恢复在网络安全管理中起着至关重要的作用,本文为大家介绍了如何通过Python实现网络设备配置备份与恢复,需要的可以参考下... 目录一、网络设备配置备份与恢复的概念与重要性二、网络设备配置备份与恢复的分类三、python网络设备配置备份与恢复实

C#中的 StreamReader/StreamWriter 使用示例详解

《C#中的StreamReader/StreamWriter使用示例详解》在C#开发中,StreamReader和StreamWriter是处理文本文件的核心类,属于System.IO命名空间,本... 目录前言一、什么是 StreamReader 和 StreamWriter?1. 定义2. 特点3. 用