【pytorch】tensor.detach()和tensor.data的区别

2024-02-25 06:52

本文主要是介绍【pytorch】tensor.detach()和tensor.data的区别,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

        • 序言
        • 相同点
        • 不同点
        • 测试实例
        • 应用

序言
  • .detach()和.data都可以用来分离tensor数据,下面进行比较
  • pytorch0.4及之后的版本,.data仍保留,但建议使用.detach()
相同点
  • x.detach()和x.data返回和x相同数据的tensor,这个新的tensor和原来的tensor共用数据,一者改变,另一者也会跟着改变
  • 新分离得到的tensor的requires_grad = False, 即不可求导的
不同点
  • (1) .data是一个属性,.detach()是一个方法
  • (2) x.data不能被autograd追踪求微分,即使被改了也能错误求导;x.detach()也不能被autograd追踪求微分,被改了会直接报错,避免错误的产生
  • (3) .data是不安全的,.detach()是安全的
测试实例
  • .data测试

    import torcha = torch.tensor([1 ,2 ,3.], requires_grad = True)  # float类型,支持求导
    out = a.sigmoid()
    print(out)    # 输出(0.0, 1.0)结果
    b = out.data  # 分离tensor
    b.zero_()     # 改变b的值,原来的out也会改变
    print(b.requires_grad)  # .data后requires_grad=False
    print(b)                # 归0后的值 tensor([0., 0., 0.])
    print(out.requires_grad)    # out的requires_grad=True
    print(out)                  # b的值改变了out也变了 tensor([0., 0., 0.])
    print("----------------------------------------------")out.sum().backward()  # 对原来的out求导
    print(a.grad)         # 不会报错,但结果不正确
    
    • 更改分离之后的变量值b,导致原来的张量out的值也跟着改变
    • 但是这种改变对于autograd是没有察觉的,它依然按照求导规则来求导,导致得出完全错误的导数值却浑然不知
    • 它的风险性就是如果我再任意一个地方更改了某一个张量,求导的时候也没有通知我已经在某处更改了,导致得出的导数值完全不正确
  • .detach()测试

    import torcha = torch.tensor([4, 5, 6.], requires_grad=True)
    out = a.sigmoid()
    print(out)
    c = out.detach()
    c.zero_()               # 改变c的值,原来的out也会改变
    print(c.requires_grad)  # detach后requires_grad=False
    print(c)                # 已经归0
    print(out.requires_grad)    # 输出为True
    print(out)
    print("----------------------------------------------")out.sum().backward()  # 对原来的out求导,
    print(a.grad)         # 此时会报错: 梯度计算所需要的张量已经被“原位操作inplace”所更改了# RuntimeError: one of the variables needed for gradient computation has been modified by an inplace operation
    
    • 更改分离之后的变量值c,导致原来的张量out的值也跟着改变
    • 这个时候如果依然按照求导规则来求导,由于out已经更改了,所以不会再继续求导了,而是报错,这样就避免了得出错误的求导结果
应用
  • forward时使用.data或.detach(),不进行梯度计算和梯度跟踪
  • backward时梯度回传,不能使用.detach()或.data,比如loss信息被detach的话就无法进行梯度回传更新参数,会导致模型无法收敛

 


【参考文章】
[1]. .detach和.data的区别和作用
[2]. .detach和.data的区别
[3]. .detach和.data求导时的区别

created by shuaixio, 2024.02.24

这篇关于【pytorch】tensor.detach()和tensor.data的区别的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/744703

相关文章

native和static native区别

本文基于Hello JNI  如有疑惑,请看之前几篇文章。 native 与 static native java中 public native String helloJni();public native static String helloJniStatic();1212 JNI中 JNIEXPORT jstring JNICALL Java_com_test_g

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

Android fill_parent、match_parent、wrap_content三者的作用及区别

这三个属性都是用来适应视图的水平或者垂直大小,以视图的内容或尺寸为基础的布局,比精确的指定视图的范围更加方便。 1、fill_parent 设置一个视图的布局为fill_parent将强制性的使视图扩展至它父元素的大小 2、match_parent 和fill_parent一样,从字面上的意思match_parent更贴切一些,于是从2.2开始,两个属性都可以使用,但2.3版本以后的建议使

Collection List Set Map的区别和联系

Collection List Set Map的区别和联系 这些都代表了Java中的集合,这里主要从其元素是否有序,是否可重复来进行区别记忆,以便恰当地使用,当然还存在同步方面的差异,见上一篇相关文章。 有序否 允许元素重复否 Collection 否 是 List 是 是 Set AbstractSet 否

javascript中break与continue的区别

在javascript中,break是结束整个循环,break下面的语句不再执行了 for(let i=1;i<=5;i++){if(i===3){break}document.write(i) } 上面的代码中,当i=1时,执行打印输出语句,当i=2时,执行打印输出语句,当i=3时,遇到break了,整个循环就结束了。 执行结果是12 continue语句是停止当前循环,返回从头开始。

maven发布项目到私服-snapshot快照库和release发布库的区别和作用及maven常用命令

maven发布项目到私服-snapshot快照库和release发布库的区别和作用及maven常用命令 在日常的工作中由于各种原因,会出现这样一种情况,某些项目并没有打包至mvnrepository。如果采用原始直接打包放到lib目录的方式进行处理,便对项目的管理带来一些不必要的麻烦。例如版本升级后需要重新打包并,替换原有jar包等等一些额外的工作量和麻烦。为了避免这些不必要的麻烦,通常我们

ActiveMQ—Queue与Topic区别

Queue与Topic区别 转自:http://blog.csdn.net/qq_21033663/article/details/52458305 队列(Queue)和主题(Topic)是JMS支持的两种消息传递模型:         1、点对点(point-to-point,简称PTP)Queue消息传递模型:         通过该消息传递模型,一个应用程序(即消息生产者)可以

深入探讨:ECMAScript与JavaScript的区别

在前端开发的世界中,JavaScript无疑是最受欢迎的编程语言之一。然而,很多开发者在使用JavaScript时,可能并不清楚ECMAScript与JavaScript之间的关系和区别。本文将深入探讨这两者的不同之处,并通过案例帮助大家更好地理解。 一、什么是ECMAScript? ECMAScript(简称ES)是一种脚本语言的标准,由ECMA国际组织制定。它定义了语言的语法、类型、语句、

Lua 脚本在 Redis 中执行时的原子性以及与redis的事务的区别

在 Redis 中,Lua 脚本具有原子性是因为 Redis 保证在执行脚本时,脚本中的所有操作都会被当作一个不可分割的整体。具体来说,Redis 使用单线程的执行模型来处理命令,因此当 Lua 脚本在 Redis 中执行时,不会有其他命令打断脚本的执行过程。脚本中的所有操作都将连续执行,直到脚本执行完成后,Redis 才会继续处理其他客户端的请求。 Lua 脚本在 Redis 中原子性的原因

CentOS下mysql数据库data目录迁移

https://my.oschina.net/u/873762/blog/180388        公司新上线一个资讯网站,独立主机,raid5,lamp架构。由于资讯网是面向小行业,初步估计一两年内访问量压力不大,故,在做服务器系统搭建的时候,只是简单分出一个独立的data区作为数据库和网站程序的专区,其他按照linux的默认分区。apache,mysql,php均使用yum安装(也尝试