torch训练gpu利用率不高

2023-10-13 00:36

本文主要是介绍torch训练gpu利用率不高,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

GPU的显存占用和算力利用直接影响模型的训练速度

显存一直占用,但是显卡使用率大多数情况为0

GPU利用率低问题

1.提高线程数

2.打开pin_memory

# 在pytorch 加载数据时提高线程数,打开pin_memory
torch.utils.data.DataLoader(image_datasets[x],batch_size=batch_size, shuffle=True,num_workers=8,pin_memory=True)

3.数据预处理占用比较久

mmdetection中yolov3的数据预处理

    # dict(#     type='Expand',#     mean=img_norm_cfg['mean'],#     to_rgb=img_norm_cfg['to_rgb'],#     ratio_range=(1, 2)),# dict(#     type='MinIoURandomCrop',#     min_ious=(0.4, 0.5, 0.6, 0.7, 0.8, 0.9),#     min_crop_size=0.3),

这部分注释掉会比较快


暂时不知道如何处理

参考链接:

模型训练 GPU利用率低,占用低怎么破_vmare gpu使用低_Dennis-Ning的博客-CSDN博客
Images normalization using too much cpu during inference · Issue #4488 · open-mmlab/mmdetection · GitHub

yolov5训练加速--一个可能忽视的细节(mmdetection也一样),为什么显卡使用率老是为0?_kv1830的博客-CSDN博客
深度学习训练时GPU利用率忽高忽低如何解决? - 知乎 (zhihu.com)
【深度学习】踩坑日记:模型训练速度过慢,GPU利用率低_模型跑的慢的原因-CSDN博客
深度强化学习遇到问题:模型训练速度过慢、GPU利用率较低,CPU利用率很低问题总结与分析。 - 知乎 (zhihu.com)

https://www.cvmart.net/community/detail/4483

这篇关于torch训练gpu利用率不高的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/199530

相关文章

YOLO v3 训练速度慢的问题

一天一夜出了两个模型,仅仅迭代了200次   原因:编译之前没有将Makefile 文件里的GPU设置为1,编译的是CPU版本,必须训练慢   解决方案: make clean  vim Makefile make   再次训练 速度快了,5分钟迭代了500次

将一维机械振动信号构造为训练集和测试集(Python)

从如下链接中下载轴承数据集。 https://www.sciencedirect.com/science/article/pii/S2352340918314124 import numpy as npimport scipy.io as sioimport matplotlib.pyplot as pltimport statistics as statsimport pandas

6月21日训练 (东北林业大学)(个人题解)

前言:   这次训练是大一大二一起参加的训练,总体来说难度是有的,我和队友在比赛时间内就写出了四道题,之后陆陆续续又补了了三道题,还有一道题看了学长题解后感觉有点超出我的能力范围了,就留给以后的自己吧。话不多说,上正文。 正文:   Problem:A 幸运数字: #include <bits/stdc++.h>using namespace std;int sum,ans;in

国产AI算力训练大模型技术实践

&nbsp;&nbsp; ChatGPT引领AI大模型热潮,国内外模型如雨后春笋,掀起新一轮科技浪潮。然而,国内大模型研发推广亦面临不小挑战。面对机遇与挑战,我们需保持清醒,持续推进技术创新与应用落地。 为应对挑战,我们需从战略高度全面规划大模型的研发与运营,利用我们的制度优势,集中资源攻坚克难。通过加强顶层设计,统一规划,并加大政策与资源的扶持,我们必将推动中国人工智能实现从追赶者到

GPU集群搭建-IDC要求

高性能GPU服务器集群对于IDC(Internet Data Center)的配电环境有特定的要求,主要涉及到电力供应的稳定性和冗余性、电力质量、以及冷却系统等几个关键方面: 1. **高功率密度**:GPU服务器因执行密集型计算任务,如人工智能、深度学习和高性能计算,往往消耗较大的电能。因此,IDC需要提供高功率密度的机架,通常每个机架的功率范围可达10kW到50kW甚至更高,以满足这些服务器

预训练是什么?

预训练是什么? 图像领域的预训练 在介绍图像领域的预训练之前,我们首先介绍下卷积神经网络(CNN),CNN 一般用于图片分类任务,并且CNN 由多个层级结构组成,不同层学到的图像特征也不同,越浅的层学到的特征越通用(横竖撇捺),越深的层学到的特征和具体任务的关联性越强(人脸-人脸轮廓、汽车-汽车轮廓) 由此,当领导给我们一个任务:阿猫、阿狗、阿虎的图片各十张,然后让我们设计一个深度神经网

GPU系列2

GPU孙泽简单命令

GPU系列1

【服务器bilibili】 netsarang进入官网 输入指令: python #进入python编译环境 import tensorflow as tf tf.version #查看tersorflow版本 tf.test.is_gpu_available() #查看tf是否支持GPU 如显示最后为True,表示支持 传输文件–Xftp 推荐压缩为zip格式 传输快 e.g:xx.zip

本地离线模型搭建指南-LLaMA-Factory训练框架及工具

搭建一个本地中文大语言模型(LLM)涉及多个关键步骤,从选择模型底座,到运行机器和框架,再到具体的架构实现和训练方式。以下是一个详细的指南,帮助你从零开始构建和运行一个中文大语言模型。 本地离线模型搭建指南将按照以下四个部分展开 中文大语言模型底座选择依据本地运行显卡选择RAG架构实现LLaMA-Factory训练框架及工具 4 训练架构及工具 4.1 为什么要使用LLaMA-Factor

ChatGPT原理和训练【 ChatGPT是由OpenAI开发】

本人详解 作者:王文峰,参加过 CSDN 2020年度博客之星,《Java王大师王天师》 公众号:JAVA开发王大师,专注于天道酬勤的 Java 开发问题中国国学、传统文化和代码爱好者的程序人生,期待你的关注和支持!本人外号:神秘小峯 山峯 转载说明:务必注明来源(注明:作者:王文峰哦) ChatGPT原理和训练【 ChatGPT是由OpenAI开发】 学习教程(传送门)1.概述2