torch.backends.cudnn.benchmark和torch.use_deterministic_algorithms总结学习记录

本文主要是介绍torch.backends.cudnn.benchmark和torch.use_deterministic_algorithms总结学习记录,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

经常使用PyTorch框架的应该对于torch.backends.cudnn.benchmark和torch.use_deterministic_algorithms这两个语句并不陌生,在以往开发项目的时候可能专门化花时间去了解过,也可能只是浅尝辄止简单有关注过,正好今天再次遇到了就想着总结梳理一下。

torch.backends.cudnn.benchmark 是 PyTorch 中的一个设置选项,用于优化卷积神经网络(CNN)的计算效率。这个选项可以显著加速卷积操作,尤其是在使用 NVIDIA cuDNN 库时。

背景简介

卷积层是卷积神经网络中的最重要的部分,也往往是运算量最大的部分。对于卷积这个操作来说,其实现方式是多种多样的。最简单的实现方式就是使用多层循环嵌套,对于每张输入图像,对于每个要输出的通道,对于每个输入的通道,选取一个区域,同指定卷积核进行卷积操作,然后逐行滑动,直到整张图像都处理完毕,这个方法一般被称为 direct 法,这个方法虽然简单,但是看到这么多循环,我们就知道效率在一般情况下不会很高了。除此之外,实现卷积层的算法还有基于 GEMM (General Matrix Multiply) 的,基于 FFT 的,基于 Winograd 算法的等等,每种卷积算法,都有其特有的一些优势,比如有的算法在卷积核大的情况下,速度很快;比如有的算法在某些情况下内存使用比较小。给定一个卷积神经网络(比如 ResNet-101),给定输入图片的尺寸,给定硬件平台,实现这个网络最简单的方法就是对所有卷积层都采用相同的卷积算法(比如 direct 算法),但是这样运行肯定不是最优的;比较好的方法是,我们可以预先进行一些简单的优化测试,在每一个卷积层中选择最适合(最快)它的卷积算法,决定好每层最快的算法之后,我们再运行整个网络,这样效率就会提升不少。

这里有一个问题,为什么我们可以提前选择每层的算法,即使每次我们送入网络训练的图片是不一样的?即每次网络的输入都是变化的,那么我怎么确保提前选出来的最优算法同样也适用于这个输入呢?原因就是,对于给定输入来说,其具体值的大小是不影响卷积的运行时间的,只有其尺寸才会影响。举例来说,我们只要固定输入大小都是 (8, 64, 224, 224),即 batch_size 为 8,输入的通道为 64,宽和高为 224,那么卷积层的运行时间都是几乎不变的,无论其中每个像素具体的值是 0.1 还是 1000。这样的话,因为我们固定了模型输入的尺寸大小,所以对每个卷积层来说,其接受的输入尺寸都是静态的,固定不变的,在提前做优化的时候我们只要使用随机初始化的相应尺寸的输入进行测试和选择就行了。

1. 什么是 cuDNN?

cuDNN 是 NVIDIA CUDA 深度神经网络库(CUDA Deep Neural Network library)的缩写。它是一个高度优化的库,专门用于加速深度学习中的卷积操作。cuDNN 提供了许多高效的算法,可以自动选择最适合当前硬件和输入尺寸的算法。

2. torch.backends.cudnn.benchmark 的作用

torch.backends.cudnn.benchmark 是一个布尔值选项,默认情况下为 False。当设置为 True 时,cuDNN 会启用自动搜索和选择最优算法的机制。具体来说:

  • 自动搜索最优算法: cuDNN 会根据输入的尺寸和网络结构,自动搜索并选择最优的卷积算法。这个过程可能需要一些时间,但一旦找到最优算法,后续的卷积操作会显著加速。

  • 适合固定输入尺寸: 这个选项最适合在输入尺寸固定的情况下使用。如果输入尺寸经常变化,cuDNN 每次都需要重新搜索最优算法,这可能会导致性能下降。

3. 如何使用 torch.backends.cudnn.benchmark

你可以在代码中设置 torch.backends.cudnn.benchmark 为 True,如下所示:

import torch# 启用 cuDNN 自动搜索最优算法
if torch.cuda.is_available():device = torch.device('cuda')print('Using GPU: ', torch.cuda.get_device_name(0))if args.use_benchmark:torch.backends.cudnn.benchmark = Trueprint('Using cudnn.benchmark.')
else:device = torch.device('cpu')print('Warning! Using CPU.')# 你的模型和训练代码
model = YourModel()
model.to('cuda')
# ...

4. 优缺点

  • 优点:

    • 加速卷积操作: 通过自动选择最优算法,可以显著加速卷积操作,尤其是在大规模模型和数据集上。

    • 简化代码: 不需要手动选择和调整卷积算法,cuDNN 会自动处理。

  • 缺点:

    • 初始化时间增加: 在第一次运行时,cuDNN 需要搜索最优算法,这可能会增加初始化时间。

    • 不适合动态输入尺寸: 如果输入尺寸经常变化,cuDNN 每次都需要重新搜索最优算法,这可能会导致性能下降。

5. 适用场景

  • 固定输入尺寸: 如果你的输入尺寸是固定的(例如图像分类任务中的固定尺寸图像),启用 torch.backends.cudnn.benchmark 可以显著提升性能。

  • 大规模模型和数据集: 在大规模模型和数据集上,卷积操作的加速效果尤为明显。

6. 注意事项

  • 动态输入尺寸: 如果你的输入尺寸经常变化(例如在目标检测或生成对抗网络中),建议不要启用 torch.backends.cudnn.benchmark,以免性能下降。

  • 调试和分析: 在调试和分析模型时,建议将 torch.backends.cudnn.benchmark 设置为 False,以确保每次运行的结果一致。

torch.use_deterministic_algorithms(False) 是 PyTorch 中的一个设置选项,用于控制是否使用确定性算法。确定性算法是指在相同的输入和相同的硬件环境下,每次运行都会产生相同的结果。以下是详细介绍:

1. 什么是确定性算法?

确定性算法是指在相同的输入和相同的硬件环境下,每次运行都会产生相同的结果。这种特性在调试和复现实验结果时非常有用,因为它可以确保每次运行的结果都是一致的。

2. torch.use_deterministic_algorithms 的作用

torch.use_deterministic_algorithms 是一个布尔值选项,默认情况下为 False。当设置为 True 时,PyTorch 会尽可能使用确定性算法,以确保每次运行的结果一致。具体来说:

  • 确定性算法: 启用确定性算法后,PyTorch 会使用那些在相同输入下总是产生相同输出的算法。这包括一些随机数生成器、卷积算法等。

  • 性能影响: 使用确定性算法可能会导致性能下降,因为某些确定性算法可能不如非确定性算法高效。

3. 如何使用 torch.use_deterministic_algorithms

你可以在代码中设置 torch.use_deterministic_algorithms 为 True 或 False,如下所示:

import torch# 启用确定性算法
torch.use_deterministic_algorithms(True)# 你的模型和训练代码
model = YourModel()
model.to('cuda')
# ...

我第一次注意到torch.use_deterministic_algorithms的时候是在基于YOLOv5开发自己的目标检测模型的时候, 如下:

在我自己的机器上直接运行的话会报错,需要将其改为如下代码:

torch.use_deterministic_algorithms(False)

我刚才专门又去看了下github里面官方的项目,发现官网最新的代码已经把这句代码删除了,感兴趣的话可以自行看下,如下所示:

4. 优缺点

  • 优点:

    • 结果可复现: 启用确定性算法可以确保每次运行的结果一致,这对于调试和复现实验结果非常有用。

    • 简化调试: 在调试过程中,确定性算法可以帮助你更容易地找到问题的根源,因为每次运行的结果都是相同的。

  • 缺点:

    • 性能下降: 使用确定性算法可能会导致性能下降,因为某些确定性算法可能不如非确定性算法高效。

    • 功能限制: 某些操作可能没有确定性实现,因此在这些情况下,启用确定性算法可能会导致错误或限制某些功能。

5. 适用场景

  • 调试和复现: 在调试和复现实验结果时,启用确定性算法非常有用,因为它可以确保每次运行的结果一致。

  • 敏感应用: 在某些对结果一致性要求非常高的应用中(例如金融、安全等领域),确定性算法可能是一个重要的考虑因素。

6. 注意事项

  • 性能影响: 启用确定性算法可能会导致性能下降,因此在生产环境中,你可能需要权衡性能和结果一致性之间的平衡。

  • 功能限制: 某些操作可能没有确定性实现,因此在启用确定性算法时,需要注意这些限制。

7. 相关设置

  • torch.backends.cudnn.deterministic: 这个选项与 torch.use_deterministic_algorithms 类似,但它主要影响 cuDNN 库的行为。当设置为 True 时,cuDNN 会使用确定性算法。

总结

torch.backends.cudnn.benchmark 是一个强大的工具,可以显著加速卷积神经网络的计算效率。通过启用这个选项,cuDNN 会自动搜索并选择最优的卷积算法,从而提升性能。然而,它最适合在输入尺寸固定的情况下使用,如果输入尺寸经常变化,可能会导致性能下降。torch.use_deterministic_algorithms(False) 是一个用于控制是否使用确定性算法的选项。启用确定性算法可以确保每次运行的结果一致,但在某些情况下可能会导致性能下降。

这篇关于torch.backends.cudnn.benchmark和torch.use_deterministic_algorithms总结学习记录的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1142649

相关文章

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss

uva 10916 Factstone Benchmark(打表)

题意是求 k ! <= 2 ^ n ,的最小k。 由于n比较大,大到 2 ^ 20 次方,所以 2 ^ 2 ^ 20比较难算,所以做一些基础的数学变换。 对不等式两边同时取log2,得: log2(k ! ) <=  log2(2 ^ n)= n,即:log2(1) + log2(2) + log2 (3) + log2(4) + ... + log2(k) <= n ,其中 n 为 2 ^

git使用的说明总结

Git使用说明 下载安装(下载地址) macOS: Git - Downloading macOS Windows: Git - Downloading Windows Linux/Unix: Git (git-scm.com) 创建新仓库 本地创建新仓库:创建新文件夹,进入文件夹目录,执行指令 git init ,用以创建新的git 克隆仓库 执行指令用以创建一个本地仓库的

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识