深度学习-自动求导

2024-04-26 13:04
文章标签 学习 深度 自动 求导

本文主要是介绍深度学习-自动求导,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

  • 向量链式法则
    • 标量链式法则
  • 拓展到向量
    • 例题1
    • 例题2
  • 符号求导
  • 数值求导
  • 自动求导
    • 计算图
    • 自动求导的两种模式
      • 链式法则
      • 正向累积(从x出发)
      • 反向累积(反向传递--先计算最终的函数即y)
      • 反向累积总结
  • 自动求导
  • 计算y关于x的梯度,使用requires_grad(True)
    • 计算y
  • 通过调用反向传播函数来自动计算y关于x每个分量的梯度
  • PyTorch会累积梯度,使用zero_()函数清除梯度
  • 批量中每个样本单独计算的偏导数之和
  • 将某些计算移动到记录的计算图之外
  • 即使构建函数的计算图通过Python控制流仍可以计算变量的梯度
  • 问题
    • 多个loss(损失函数)分别反向的时候是不是需要累积梯度?
    • 需要正向和反向都要算一遍吗?
    • 为什么Pytorch会默认累积梯度?
    • 为什么获取.grad前需要backward?

向量链式法则

标量链式法则

在这里插入图片描述




拓展到向量

在这里插入图片描述




例题1

在这里插入图片描述

过程:
在这里插入图片描述


在这里插入图片描述


在这里插入图片描述





例题2

在这里插入图片描述

过程:
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
然后将分解的回代




符号求导

在这里插入图片描述

数值求导

在这里插入图片描述

自动求导

自动求导计算一个函数在指定值上的导数

计算图

将代码分解为操作子
将计算表示成一个无环图
在这里插入图片描述
显示构造
在这里插入图片描述
隐式构造
在这里插入图片描述




自动求导的两种模式

链式法则

在这里插入图片描述

正向累积(从x出发)

在这里插入图片描述

反向累积(反向传递–先计算最终的函数即y)

在这里插入图片描述

这里的反向先计算z的函数
在这里插入图片描述




反向累积总结

构造计算图
前向:执行图,存储中间结果
反向:从相反方向执行图
去除不需要的枝

在这里插入图片描述

计算复杂度:O(n),n是操作子个数
通常正向和方向的代价类似
内存复杂度:O(n),因为需要存储正向的所有中间结果

正向累积:
它的内存复杂度是O(1),即不管多深我不需要存储它的结果,而反向累积则需要存储。

反向从根节点向下扫,可以保证每个节点只扫一次;
正向从叶节点向上扫,会导致上层节点可能需要被重复扫多次。

(正向中 子节点比父节点先计算,因此也无法像反向那样把本节点的计算结果传给每个子节点。)




自动求导

假设我们对函数 y=2 x T x^T xTx 求导

import torch
x = torch.arange(4.0)
print(x)

结果:在这里插入图片描述




计算y关于x的梯度,使用requires_grad(True)

import torch
x = torch.arange(4.0, requires_grad=True)
print(x.grad)

结果:在这里插入图片描述

计算y

import torch
x = torch.arange(4.0, requires_grad=True)
y = 2 * torch.dot(x, x)
print(y)

结果:在这里插入图片描述




通过调用反向传播函数来自动计算y关于x每个分量的梯度

import torch
x = torch.arange(4.0, requires_grad=True)
print(x)
y = 2 * torch.dot(x, x)
y.backward() #求导
print(x.grad) #x.grad访问导数

结果:在这里插入图片描述
y=2 x 2 x^2 x2然后使用求导函数backward()实质是y导=4x(下面验证)。

import torch
x = torch.arange(4.0, requires_grad=True)
y = 2 * torch.dot(x, x)
y.backward() #求导
print(x.grad == 4*x)

结果:在这里插入图片描述




PyTorch会累积梯度,使用zero_()函数清除梯度

import torch
x = torch.arange(4.0, dtype=torch.float32, requires_grad=True)
y = 2 * torch.dot(x, x)
y.backward()
print(x.grad)x.grad.zero_() #梯度清零
y = x.sum()
y.backward() #求导
print(x.grad)

因为求向量的sum()所以梯度是全1
y是标量
y是对x的的求和:y= x 1 x_1 x1+ x 2 x_2 x2+ x 3 x_3 x3+ x 4 x_4 x4
对y进行x的偏导:dy/ d x 1 dx_1 dx1,dy/ d x 2 dx_2 dx2,dy/ d x 3 dx_3 dx3,dy/ d x 4 dx_4 dx4

在这里插入图片描述




批量中每个样本单独计算的偏导数之和

import torch
x = torch.arange(4.0, dtype=torch.float32, requires_grad=True)
y = 2 * torch.dot(x, x)
y.backward()
print(x.grad)x.grad.zero_() #梯度清零,如果不清零执行y=x*x然后对y求和再求导可以通过x.grad查看得[0.,1.,4.,*.]
y = x*x #x是向量,y即向量
print(y) #输出查看
y.sum().backward() #求导
print(x.grad)

梯度(求导)清零:必须先存在梯度,如果没有y.backward()则x.grad.zero_()会报错。
结果:在这里插入图片描述




将某些计算移动到记录的计算图之外

import torch
x = torch.arange(4.0, dtype=torch.float32, requires_grad=True)
y = 2 * torch.dot(x, x)
y.backward()
print(x.grad)x.grad.zero_() #梯度清零,如果不清零执行y=x*x然后对y求和再求导可以通过x.grad查看得[0.,1.,4.,*.]
y = x * x #x是向量,y即向量
print(y) #输出查看
u = y.detach()#把y当作一个常数,而不是关于x的函数,把它做成u
z = u * x #相当于z=常数*x
z.sum().backward()
print(x.grad == u)

结果:这里的z就是为了后续求导检查是否与detach()后一致。
在这里插入图片描述


import torch
x = torch.arange(4.0, dtype=torch.float32, requires_grad=True)
y = 2 * torch.dot(x, x)
y.backward()
print(x.grad)x.grad.zero_() #梯度清零,如果不清零执行y=x*x然后对y求和再求导可以通过x.grad查看得[0.,1.,4.,*.]
y = x * x #x是向量,y即向量
y.sum().backward()
print(x.grad == 2 * x)

结果:
在这里插入图片描述




即使构建函数的计算图通过Python控制流仍可以计算变量的梯度

import torchdef f(a):b = a * 2while b.norm() < 1000:#norm()计算张量的范数, 计算了张量 b 的L2范数b = b * 2if b.sum(): #检查 b 所有元素的总和是否非零c = b #非0的时候的操作else:c = 100 * breturn ca = torch.randn(size=(), requires_grad=True)
d = f(a)
d.backward()
print(a.grad == d / a) #梯度验证

结果:在这里插入图片描述




问题

多个loss(损失函数)分别反向的时候是不是需要累积梯度?

是的

需要正向和反向都要算一遍吗?

是的

为什么Pytorch会默认累积梯度?

设计上的理念,通常一个大的批量无法一次计算出,所以分为多次,然后累加起来。

为什么获取.grad前需要backward?

不进行backward时不会计算梯度,因为计算梯度是一个很“贵”的事情

这篇关于深度学习-自动求导的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/937658

相关文章

深度解析Java DTO(最新推荐)

《深度解析JavaDTO(最新推荐)》DTO(DataTransferObject)是一种用于在不同层(如Controller层、Service层)之间传输数据的对象设计模式,其核心目的是封装数据,... 目录一、什么是DTO?DTO的核心特点:二、为什么需要DTO?(对比Entity)三、实际应用场景解析

深度解析Java项目中包和包之间的联系

《深度解析Java项目中包和包之间的联系》文章浏览阅读850次,点赞13次,收藏8次。本文详细介绍了Java分层架构中的几个关键包:DTO、Controller、Service和Mapper。_jav... 目录前言一、各大包1.DTO1.1、DTO的核心用途1.2. DTO与实体类(Entity)的区别1

浏览器插件cursor实现自动注册、续杯的详细过程

《浏览器插件cursor实现自动注册、续杯的详细过程》Cursor简易注册助手脚本通过自动化邮箱填写和验证码获取流程,大大简化了Cursor的注册过程,它不仅提高了注册效率,还通过友好的用户界面和详细... 目录前言功能概述使用方法安装脚本使用流程邮箱输入页面验证码页面实战演示技术实现核心功能实现1. 随机

深度解析Python装饰器常见用法与进阶技巧

《深度解析Python装饰器常见用法与进阶技巧》Python装饰器(Decorator)是提升代码可读性与复用性的强大工具,本文将深入解析Python装饰器的原理,常见用法,进阶技巧与最佳实践,希望可... 目录装饰器的基本原理函数装饰器的常见用法带参数的装饰器类装饰器与方法装饰器装饰器的嵌套与组合进阶技巧

深度解析Spring Boot拦截器Interceptor与过滤器Filter的区别与实战指南

《深度解析SpringBoot拦截器Interceptor与过滤器Filter的区别与实战指南》本文深度解析SpringBoot中拦截器与过滤器的区别,涵盖执行顺序、依赖关系、异常处理等核心差异,并... 目录Spring Boot拦截器(Interceptor)与过滤器(Filter)深度解析:区别、实现

深度解析Spring AOP @Aspect 原理、实战与最佳实践教程

《深度解析SpringAOP@Aspect原理、实战与最佳实践教程》文章系统讲解了SpringAOP核心概念、实现方式及原理,涵盖横切关注点分离、代理机制(JDK/CGLIB)、切入点类型、性能... 目录1. @ASPect 核心概念1.1 AOP 编程范式1.2 @Aspect 关键特性2. 完整代码实

SpringBoot开发中十大常见陷阱深度解析与避坑指南

《SpringBoot开发中十大常见陷阱深度解析与避坑指南》在SpringBoot的开发过程中,即使是经验丰富的开发者也难免会遇到各种棘手的问题,本文将针对SpringBoot开发中十大常见的“坑... 目录引言一、配置总出错?是不是同时用了.properties和.yml?二、换个位置配置就失效?搞清楚加

HTML5实现的移动端购物车自动结算功能示例代码

《HTML5实现的移动端购物车自动结算功能示例代码》本文介绍HTML5实现移动端购物车自动结算,通过WebStorage、事件监听、DOM操作等技术,确保实时更新与数据同步,优化性能及无障碍性,提升用... 目录1. 移动端购物车自动结算概述2. 数据存储与状态保存机制2.1 浏览器端的数据存储方式2.1.

一文详解MySQL如何设置自动备份任务

《一文详解MySQL如何设置自动备份任务》设置自动备份任务可以确保你的数据库定期备份,防止数据丢失,下面我们就来详细介绍一下如何使用Bash脚本和Cron任务在Linux系统上设置MySQL数据库的自... 目录1. 编写备份脚本1.1 创建并编辑备份脚本1.2 给予脚本执行权限2. 设置 Cron 任务2

MyBatis Plus 中 update_time 字段自动填充失效的原因分析及解决方案(最新整理)

《MyBatisPlus中update_time字段自动填充失效的原因分析及解决方案(最新整理)》在使用MyBatisPlus时,通常我们会在数据库表中设置create_time和update... 目录前言一、问题现象二、原因分析三、总结:常见原因与解决方法对照表四、推荐写法前言在使用 MyBATis