torch 单机多卡训练(二)

2024-05-13 05:52

文章标签 训练 torch 单机多卡

本文主要是介绍torch 单机多卡训练(二)，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

pytorch.distributed.launch和torchrun的对比

多卡训练

真的烦

并行训练最大的好处，在于GPU内存变大，不是变快

torch.distributed.launch

  CUDA_VISIBLE_DEVICES=0,1,2,3 python -m torch.distributed.launch --nproc_per_node=4 --nnodes=1 --use_env kdef_ir50_comb.py --batch_size 32  --learning_rate 0.001   --epochs 300 --temp 0.1  --weight_decay 1e-4  --model IR_50 --method SupCon --cosin --special mod_Linear_Bn

缺点：需要执行设备数
没有指定设备导致的问题

torch.distributed.run

python -m torch.distributed.run --nproc_per_node=4 --nnodes=1  kdef_ir50_comb.py --batch_size 32  
--learning_rate 0.001   --epochs 300 --temp 0.1  --weight_decay 1e-4  --model IR_50 --method SupCon 
--cosin --special mod_Linear_Bn

效果一样

有时候，直接python 也能并行

在这里插入图片描述

暂时不清楚机理

这篇关于torch 单机多卡训练(二)的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/984850。 23002807@qq.com

相关文章

Linux搭建单机MySQL8.0.26版本的操作方法

Linux搭建单机MySQL8.0.26版本的操作方法

《Linux搭建单机MySQL8.0.26版本的操作方法》：本文主要介绍Linux搭建单机MySQL8.0.26版本的操作方法,本文通过图文并茂的形式给大家讲解的非常详细,感兴趣的朋友一起看看吧... 目录概述环境信息数据库服务安装步骤下载前置依赖服务下载方式一：进入官网下载，并上传到宿主机中，适合离线环境

阅读更多...

如何在pycharm安装torch包

如何在pycharm安装torch包

《如何在pycharm安装torch包》：本文主要介绍如何在pycharm安装torch包方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录在pycharm安装torch包适http://www.chinasem.cn配于我电脑的指令为适用的torch包为总结在p

阅读更多...

pytorch之torch.flatten()和torch.nn.Flatten()的用法

pytorch之torch.flatten()和torch.nn.Flatten()的用法

《pytorch之torch.flatten()和torch.nn.Flatten()的用法》：本文主要介绍pytorch之torch.flatten()和torch.nn.Flatten()的用... 目录torch.flatten()和torch.nn.Flatten()的用法下面举例说明总结torch

阅读更多...

衡石分析平台使用手册-单机安装及启动

衡石分析平台使用手册-单机安装及启动

单机安装及启动本文讲述如何在单机环境下进行 HENGSHI SENSE 安装的操作过程。在安装前请确认网络环境，如果是隔离环境，无法连接互联网时，请先按照离线环境安装依赖的指导进行依赖包的安装，然后按照本文的指导继续操作。如果网络环境可以连接互联网，请直接按照本文的指导进行安装。准备工作请参考安装环境文档准备安装环境。配置用户与安装目录。在操作前请检查您是否有 sud

阅读更多...

MiniGPT-3D, 首个高效的3D点云大语言模型，仅需一张RTX3090显卡，训练一天时间，已开源

MiniGPT-3D, 首个高效的3D点云大语言模型，仅需一张RTX3090显卡，训练一天时间，已开源

项目主页：https://tangyuan96.github.io/minigpt_3d_project_page/ 代码：https://github.com/TangYuan96/MiniGPT-3D 论文：https://arxiv.org/pdf/2405.01413 MiniGPT-3D在多个任务上取得了SoTA，被ACM MM2024接收，只拥有47.8M的可训练参数，在一张RTX

阅读更多...

Spark MLlib模型训练—聚类算法 PIC(Power Iteration Clustering)

Spark MLlib模型训练—聚类算法 PIC(Power Iteration Clustering)

Spark MLlib模型训练—聚类算法 PIC(Power Iteration Clustering) Power Iteration Clustering (PIC) 是一种基于图的聚类算法，用于在大规模数据集上进行高效的社区检测。PIC 算法的核心思想是通过迭代图的幂运算来发现数据中的潜在簇。该算法适用于处理大规模图数据，特别是在社交网络分析、推荐系统和生物信息学等领域具有广泛应用。Spa

阅读更多...

SigLIP——采用sigmoid损失的图文预训练方式

SigLIP——采用sigmoid损失的图文预训练方式

SigLIP——采用sigmoid损失的图文预训练方式 FesianXu 20240825 at Wechat Search Team 前言 CLIP中的infoNCE损失是一种对比性损失，在SigLIP这个工作中，作者提出采用非对比性的sigmoid损失，能够更高效地进行图文预训练，本文进行介绍。如有谬误请见谅并联系指出，本文遵守CC 4.0 BY-SA版权协议，转载请联系作者并注

阅读更多...

Detectorn2预训练模型复现：数据准备、训练命令、日志分析与输出目录

Detectorn2预训练模型复现：数据准备、训练命令、日志分析与输出目录

Detectorn2预训练模型复现：数据准备、训练命令、日志分析与输出目录在深度学习项目中，目标检测是一项重要的任务。本文将详细介绍如何使用Detectron2进行目标检测模型的复现训练，涵盖训练数据准备、训练命令、训练日志分析、训练指标以及训练输出目录的各个文件及其作用。特别地，我们将演示在训练过程中出现中断后，如何使用 resume 功能继续训练，并将我们复现的模型与Model Zoo中的

阅读更多...

多云架构下大模型训练的存储稳定性探索

多云架构下大模型训练的存储稳定性探索

一、多云架构与大模型训练的融合（一）多云架构的优势与挑战多云架构为大模型训练带来了诸多优势。首先，资源灵活性显著提高，不同的云平台可以提供不同类型的计算资源和存储服务，满足大模型训练在不同阶段的需求。例如，某些云平台可能在 GPU 计算资源上具有优势，而另一些则在存储成本或性能上表现出色，企业可以根据实际情况进行选择和组合。其次，扩展性得以增强，当大模型的规模不断扩大时，单一云平

阅读更多...

pytorch torch.nn.functional.one_hot函数介绍

pytorch torch.nn.functional.one_hot函数介绍

torch.nn.functional.one_hot 是 PyTorch 中用于生成独热编码（one-hot encoding）张量的函数。独热编码是一种常用的编码方式，特别适用于分类任务或对离散的类别标签进行处理。该函数将整数张量的每个元素转换为一个独热向量。函数签名 torch.nn.functional.one_hot(tensor, num_classes=-1) 参数 t

阅读更多...