单机多卡训练-DDP

2023-12-18 01:20

文章标签 训练单机 ddp 多卡

本文主要是介绍单机多卡训练-DDP，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

DDP原理：

为什么快？

DDP通过Ring-Reduce（梯度合并）的数据交换方法提高了通讯效率，并通过启动多个进程的方式减轻Python GIL的限制，从而提高训练速度。

神经网络中的并行有以下三种形式：

Data Parallelism
1. 这是最常见的形式，通俗来讲，就是增大batch size提高并行度。
  1. 平时我们看到的多卡并行就属于这种。比如DP、DDP都是。这能让我们方便地利用多卡计算资源。
2. 能加速。
Model Parallelism
1. 把模型放在不同GPU上，计算是并行的。
2. 有可能是加速的，看通讯效率。
Workload Partitioning
1. 把模型放在不同GPU上，但计算是串行的。
2. 不能加速。

参考：[原创][深度][PyTorch] DDP系列第一篇：入门教程 - 知乎 (zhihu.com)

[原创][深度][PyTorch] DDP系列第一篇：入门教程 - 知乎 (zhihu.com)

注意点：

1. 保存模型：

考虑到以后可能需要单卡加载你多卡训练的模型，建议在保存模型时，去除模型参数字典里面的module，如何去除呢，使用model.module.state_dict()代替model.state_dict()

2. 每一个epoch里面真正的打乱数据

for epoch in range(args.num_epochs):train_sampler.set_epoch(epoch)  # shuffle数据

这篇关于单机多卡训练-DDP的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/506527。 23002807@qq.com

相关文章

衡石分析平台使用手册-单机安装及启动

衡石分析平台使用手册-单机安装及启动

单机安装及启动本文讲述如何在单机环境下进行 HENGSHI SENSE 安装的操作过程。在安装前请确认网络环境，如果是隔离环境，无法连接互联网时，请先按照离线环境安装依赖的指导进行依赖包的安装，然后按照本文的指导继续操作。如果网络环境可以连接互联网，请直接按照本文的指导进行安装。准备工作请参考安装环境文档准备安装环境。配置用户与安装目录。在操作前请检查您是否有 sud

阅读更多...

MiniGPT-3D, 首个高效的3D点云大语言模型，仅需一张RTX3090显卡，训练一天时间，已开源

MiniGPT-3D, 首个高效的3D点云大语言模型，仅需一张RTX3090显卡，训练一天时间，已开源

项目主页：https://tangyuan96.github.io/minigpt_3d_project_page/ 代码：https://github.com/TangYuan96/MiniGPT-3D 论文：https://arxiv.org/pdf/2405.01413 MiniGPT-3D在多个任务上取得了SoTA，被ACM MM2024接收，只拥有47.8M的可训练参数，在一张RTX

阅读更多...

Spark MLlib模型训练—聚类算法 PIC(Power Iteration Clustering)

Spark MLlib模型训练—聚类算法 PIC(Power Iteration Clustering)

Spark MLlib模型训练—聚类算法 PIC(Power Iteration Clustering) Power Iteration Clustering (PIC) 是一种基于图的聚类算法，用于在大规模数据集上进行高效的社区检测。PIC 算法的核心思想是通过迭代图的幂运算来发现数据中的潜在簇。该算法适用于处理大规模图数据，特别是在社交网络分析、推荐系统和生物信息学等领域具有广泛应用。Spa

阅读更多...

SigLIP——采用sigmoid损失的图文预训练方式

SigLIP——采用sigmoid损失的图文预训练方式

SigLIP——采用sigmoid损失的图文预训练方式 FesianXu 20240825 at Wechat Search Team 前言 CLIP中的infoNCE损失是一种对比性损失，在SigLIP这个工作中，作者提出采用非对比性的sigmoid损失，能够更高效地进行图文预训练，本文进行介绍。如有谬误请见谅并联系指出，本文遵守CC 4.0 BY-SA版权协议，转载请联系作者并注

阅读更多...

Detectorn2预训练模型复现：数据准备、训练命令、日志分析与输出目录

Detectorn2预训练模型复现：数据准备、训练命令、日志分析与输出目录

Detectorn2预训练模型复现：数据准备、训练命令、日志分析与输出目录在深度学习项目中，目标检测是一项重要的任务。本文将详细介绍如何使用Detectron2进行目标检测模型的复现训练，涵盖训练数据准备、训练命令、训练日志分析、训练指标以及训练输出目录的各个文件及其作用。特别地，我们将演示在训练过程中出现中断后，如何使用 resume 功能继续训练，并将我们复现的模型与Model Zoo中的

阅读更多...

多云架构下大模型训练的存储稳定性探索

多云架构下大模型训练的存储稳定性探索

一、多云架构与大模型训练的融合（一）多云架构的优势与挑战多云架构为大模型训练带来了诸多优势。首先，资源灵活性显著提高，不同的云平台可以提供不同类型的计算资源和存储服务，满足大模型训练在不同阶段的需求。例如，某些云平台可能在 GPU 计算资源上具有优势，而另一些则在存储成本或性能上表现出色，企业可以根据实际情况进行选择和组合。其次，扩展性得以增强，当大模型的规模不断扩大时，单一云平

阅读更多...

神经网络训练不起来怎么办（零）| General Guidance

神经网络训练不起来怎么办（零）| General Guidance

摘要：模型性能不理想时，如何判断 Model Bias， Optimization， Overfitting 等问题，并以此着手优化模型。在这个分析过程中，我们可以对Function Set，模型弹性有直观的理解。关键词：模型性能，Model Bias， Optimization， Overfitting。零，领域背景如果我们的模型表现较差，那么我们往往需要根据 Training l

阅读更多...

如何创建训练数据集

如何创建训练数据集

在 HuggingFace 上创建数据集非常方便，创建完成之后，通过 API 可以方便的下载并使用数据集，在 Google Colab 上进行模型调优，下载数据集速度非常快，本文通过 Dataset 库创建一个简单的训练数据集。首先安装数据集依赖 HuggingFace datasetshuggingface_hub 创建数据集替换为自己的 HuggingFace API key

阅读更多...

【YOLO 系列】基于YOLOV8的智能花卉分类检测系统【python源码+Pyqt5界面+数据集+训练代码】

【YOLO 系列】基于YOLOV8的智能花卉分类检测系统【python源码+Pyqt5界面+数据集+训练代码】

前言：花朵作为自然界中的重要组成部分，不仅在生态学上具有重要意义，也在园艺、农业以及艺术领域中占有一席之地。随着图像识别技术的发展，自动化的花朵分类对于植物研究、生物多样性保护以及园艺爱好者来说变得越发重要。为了提高花朵分类的效率和准确性，我们启动了基于YOLO V8的花朵分类智能识别系统项目。该项目利用深度学习技术，通过分析花朵图像，自动识别并分类不同种类的花朵，为用户提供一个高效的花朵识别

阅读更多...

深度学习与大模型第3课：线性回归模型的构建与训练

深度学习与大模型第3课：线性回归模型的构建与训练

文章目录使用Python实现线性回归：从基础到scikit-learn1. 环境准备2. 数据准备和可视化3. 使用numpy实现线性回归4. 使用模型进行预测5. 可视化预测结果6. 使用scikit-learn实现线性回归7. 梯度下降法8. 随机梯度下降和小批量梯度下降9. 比较不同的梯度下降方法总结使用Python实现线性回归：从基础到scikit-learn 线性

阅读更多...