单机多GPU的训练及debug中vscode下launch.json内容设置

2024-05-02 18:20

本文主要是介绍单机多GPU的训练及debug中vscode下launch.json内容设置,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1.预配置

Local_rank:当前机子上的第几块GPU。这里设置为-1,后续多线程自动分配显卡。

Cuda_visible_devices:指定分配资源到几块显卡上,这里‘0,1,2,3’就是这四张gpu的id。

os.environ['LOCAL_RANK'] = '-1'
os.environ['CUDA_VISIBLE_DEVICES'] = '0,1,2,3'

2.初始化

其实是一个多线程的过程,开3张GPU就是开了三个进程,每一个进程各自独立。

这块代码就是一个线程:

1-2行:自动获得当前线程gpu的id,并配置到cuda中。

3-4行:初始化分布式训练,nccl是后端通信方式。

因为是单机,init_process_group()中其他不需要了,写多了容易端口冲突报错。

5: 获得当前线程的gpu的id。

6: 不同进程之间的同步,同步后运行后面的程序。

gpu = int(os.environ['LOCAL_RANK'])
torch.cuda.set_device(gpu)
dist_backend = 'nccl'
torch.distributed.init_process_group(backend=dist_backend)
device_id = torch.distributed.get_rank()
torch.distributed.barrier()

3.模型分配

三个线程每一个线程都有一个模型,将模型分配到当前线程的gpu_id。

broadcast_buffers=False:这里设置缓冲区不同步,

因为在后面每一个epoch结束后用了torch.distributed.barrier()来同步各个进程。

find_unused_parameters=True:减少无用梯度计算。

model = model.to(device_id)
model = torch.nn.parallel.DistributedDataParallel(model, device_ids=[device_id], broadcast_buffers=False, find_unused_parameters=True)

4.数据分配

1.创建数据samper

num_replicas=num_tasks:共有三张GPU,三个进程三份副本。

rank=device_id:当前分配的gpu_id。

2.创建dataloader

pin_memory=True:数据转移到GPU中速度就会快一些,吃显存。

num_workers=[3]:加速数据装载,吃内存。

num_tasks = torch.distributed.get_world_size()
sampler = torch.utils.data.DistributedSampler(dataset, num_replicas=num_tasks, rank=device_id, shuffle=shuffle)
loader = DataLoader(dataset,batch_size=bs,num_workers=[4],pin_memory=True,sampler=sampler,shuffle=shuffle,collate_fn=[None],drop_last=drop_last,)              

5.训练

每训练完一轮迭代同步一下。

for e in epochs:
....torch.distributed.barrier()

最后,在terminal运行。nproc_per_node=4就是有四张gpu。

python -m torch.distributed.launch --nproc_per_node=4 --use_env main.py

6.debug的vscode下的launch.json内容 

 比如我的训练指令为:

python -m torch.distributed.launch --nproc_per_node=3 --use_env dark.py --sim --experiment dark_img

注:其中训练用3张GPU,  dark.py 是运行程序,而--sim 和--experiment dark_img是要传入的2个参数,下面的dark.py在darkening文件夹下,darkening文件夹是.vscode的统计文件夹,则完整launch.json内容如下:

{"version": "0.2.0","configurations": [{"name": "Python 调试程序: debug","type": "python","request": "launch","program": "/opt/conda/lib/python3.8/site-packages/torch/distributed/launch.py", "args": ["--nproc_per_node=3","--use_env","${workspaceFolder}/darkening/dark.py","--sim","--experiment", "dark_img"],"console": "integratedTerminal","justMyCode": true,"cwd": "${workspaceFolder}",}

参考:

单机多GPU训练 - 知乎 (zhihu.com)

这篇关于单机多GPU的训练及debug中vscode下launch.json内容设置的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/954886

相关文章

使用Jackson进行JSON生成与解析的新手指南

《使用Jackson进行JSON生成与解析的新手指南》这篇文章主要为大家详细介绍了如何使用Jackson进行JSON生成与解析处理,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. 核心依赖2. 基础用法2.1 对象转 jsON(序列化)2.2 JSON 转对象(反序列化)3.

JSON Web Token在登陆中的使用过程

《JSONWebToken在登陆中的使用过程》:本文主要介绍JSONWebToken在登陆中的使用过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录JWT 介绍微服务架构中的 JWT 使用结合微服务网关的 JWT 验证1. 用户登录,生成 JWT2. 自定义过滤

Java利用JSONPath操作JSON数据的技术指南

《Java利用JSONPath操作JSON数据的技术指南》JSONPath是一种强大的工具,用于查询和操作JSON数据,类似于SQL的语法,它为处理复杂的JSON数据结构提供了简单且高效... 目录1、简述2、什么是 jsONPath?3、Java 示例3.1 基本查询3.2 过滤查询3.3 递归搜索3.4

PyCharm如何设置新建文件默认为LF换行符

《PyCharm如何设置新建文件默认为LF换行符》:本文主要介绍PyCharm如何设置新建文件默认为LF换行符问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录PyCharm设置新建文件默认为LF换行符设置换行符修改换行符总结PyCharm设置新建文件默认为LF

使用Python实现获取网页指定内容

《使用Python实现获取网页指定内容》在当今互联网时代,网页数据抓取是一项非常重要的技能,本文将带你从零开始学习如何使用Python获取网页中的指定内容,希望对大家有所帮助... 目录引言1. 网页抓取的基本概念2. python中的网页抓取库3. 安装必要的库4. 发送HTTP请求并获取网页内容5. 解

如何自定义Nginx JSON日志格式配置

《如何自定义NginxJSON日志格式配置》Nginx作为最流行的Web服务器之一,其灵活的日志配置能力允许我们根据需求定制日志格式,本文将详细介绍如何配置Nginx以JSON格式记录访问日志,这种... 目录前言为什么选择jsON格式日志?配置步骤详解1. 安装Nginx服务2. 自定义JSON日志格式各

Linux上设置Ollama服务配置(常用环境变量)

《Linux上设置Ollama服务配置(常用环境变量)》本文主要介绍了Linux上设置Ollama服务配置(常用环境变量),Ollama提供了多种环境变量供配置,如调试模式、模型目录等,下面就来介绍一... 目录在 linux 上设置环境变量配置 OllamPOgxSRJfa手动安装安装特定版本查看日志在

python dict转换成json格式的实现

《pythondict转换成json格式的实现》本文主要介绍了pythondict转换成json格式的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下... 一开始你变成字典格式data = [ { 'a' : 1, 'b' : 2, 'c编程' : 3,

Python实现常用文本内容提取

《Python实现常用文本内容提取》在日常工作和学习中,我们经常需要从PDF、Word文档中提取文本,本文将介绍如何使用Python编写一个文本内容提取工具,有需要的小伙伴可以参考下... 目录一、引言二、文本内容提取的原理三、文本内容提取的设计四、文本内容提取的实现五、完整代码示例一、引言在日常工作和学

Java实现XML与JSON的互相转换详解

《Java实现XML与JSON的互相转换详解》这篇文章主要为大家详细介绍了如何使用Java实现XML与JSON的互相转换,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. XML转jsON1.1 代码目的1.2 代码实现2. JSON转XML3. JSON转XML并输出成指定的