李理:自动梯度求解 反向传播算法的另外一种视角

2024-03-20 22:30

本文主要是介绍李理:自动梯度求解 反向传播算法的另外一种视角,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本系列文章面向深度学习研发者,希望通过Image Caption Generation,一个有意思的具体任务,深入浅出地介绍深度学习的知识。本系列文章涉及到很多深度学习流行的模型,如CNN,RNN/LSTM,Attention等。本文为第四篇。

作者:李理
目前就职于环信,即时通讯云平台和全媒体智能客服平台,在环信从事智能客服和智能机器人相关工作,致力于用深度学习来提高智能机器人的性能。

相关文章:
李理:从Image Caption Generation理解深度学习(part I)
李理:从Image Caption Generation理解深度学习(part II)
李理:从Image Caption Generation理解深度学习(part III)

前面我们讲过了反向传播算法的详细推导过程,大家可能会觉得有些复杂。事实上其实就是链式求导法则的应用。今天我们将会继续讨论这个问题,不过是从Computational Graphs的角度,也就是我们之前说过的自动求导(Automatic Differentiation or Reverse-mode Differentiation)。并且通过CS231n的Assignment2来学习使用这种方法,通过这种方法来实现一个多层的神经网络。

Calculus on Computational Graphs: Backpropagation

首先我们介绍一篇博客文章: https://colah.github.io/posts/2015-08-Backprop/ 基本是翻译过来,不过部分地方是我自己的理解,建议读者结合这篇文章一起阅读。

简介

反向传播算法是神经网络的核心算法,不过这个算法在不同的领域被多次”发现“过,因此有不同的名称。

计算图(Computational Graphs)

考虑一个简单的函数 e=(a+b)∗(b+1)e=(a+b)∗(b+1) 。这个函数有两个操作(函数),加法和乘法。为了指代方便,我们引入两个中间变量,c和d。

  • c=a+b
  • d=b+1
  • e=c∗d

下面我们把它画成一个计算图,每一个操作是图中一个节点,最基本的变量a和b也是一个节点。每个节点和它的输入变量直接有一条边。比如d的输入变量是b,那么d和b直接就有一条边。

任何一个显示定义的函数(隐函数不行,不过我们定义的神经网络肯定不会通过隐函数来定义)都可以分解为一个有向无环图(树),其中叶子节点是最基本的无依赖的自变量,而中间节点是我们引入的中间变量,而树根就是我们的函数。比如上面的例子,计算图如下所示:

图片描述

给定每一个自变量的值,我们可以计算最终的函数值,对应与神经网络就是feedforward计算。具体用”算法“怎么计算呢?首先因为计算图是一个有向无环图,因此我们可以拓扑排序,先是叶子节点a和b,他们的值已经给定,然后删除a和b出发的边,然后c和d没有任何未知依赖,可以计算,最后计算e。计算过程如下图:

图片描述

计算图的导数计算

首先我们可以计算每条边上的导数,也就是边的终点对起点的导数,而且导数是在起点的取前向计算值时的导数,具体过程如图所示:

图片描述

有些边的导数不依赖于输入的值,比如:

图片描述

但是还有很多边的导数是依赖于输入值的,比如:

图片描述

因为在“前向”计算的过程中,每个节点的值都计算出来了,所以边的计算很简单,也不需要按照什么的顺序。

不过我们一般比较感兴趣的是最终函数对某个自变量的导数,比如

图片描述

根据链式法则,只要找到这两个节点的所有路径,然后把路径的边乘起来就得到这条边的值,然后把所有边加起来就可以了。

比如上面的例子b到e有两条路径:b->c->e和b->d->e,所以

图片描述

如果用“链式”法则来写就是

图片描述

路径反过来而已。

使用上面的方法,我们可以计算任何一个点(上面的变量)对另外一个点(上面的变量)的导数。不过我们一般的情况是计算树根对所有叶子的导数,当然我们可以使用上面的算法一个一个计算,但是这样会有很多重复的计算。

比如a->e的路径是 a->c->e,b->e有一条边是b->c->e,其中c->e是重复的【这个例子不太好,我们可以想像c->e是一条很长的路径】,每次都重复计算c->e这个“子”路径是多余的。我们可以从后往前计算,也就是每个节点都是存放树根变量(这个例子是e)对当前节点的导数(其实也就是树根到当前节点的所有路径的和)。

反向导数计算

图片描述

计算流程文字描述如下:
首先还是对这个图进行拓扑排序,不过是反过来。
首先是

图片描述

这个没什么好说的。
然后计算

图片描述

然后计算

图片描述

然后计算

图片描述

计算

图片描述

前向导数计算

如果我们需要计算每一个变量对某一个变量的导数,就可以使用前向计算的方法。不过我们的神经网络都是相反——计算某个一个变量(一般是损失函数)对所有变量的导数,所以这里就不详细介绍了。

至此,本系列文章的第四部分告一段落。在接下来的文章中,作者将为大家详细讲述关于Optimization、常见的深度学习框架/工具的使用方法、使用自动求导来实现多层神经网络等内容,敬请期待。


本系列文章也将在CSDN人工智能公众号AI_Thinker中进行连载,扫描下方二维码即可关注。
图片描述

这篇关于李理:自动梯度求解 反向传播算法的另外一种视角的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/830955

相关文章

SpringBoot中封装Cors自动配置方式

《SpringBoot中封装Cors自动配置方式》:本文主要介绍SpringBoot中封装Cors自动配置方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录SpringBoot封装Cors自动配置背景实现步骤1. 创建 GlobalCorsProperties

idea中创建新类时自动添加注释的实现

《idea中创建新类时自动添加注释的实现》在每次使用idea创建一个新类时,过了一段时间发现看不懂这个类是用来干嘛的,为了解决这个问题,我们可以设置在创建一个新类时自动添加注释,帮助我们理解这个类的用... 目录前言:详细操作:步骤一:点击上方的 文件(File),点击&nbmyHIgsp;设置(Setti

SpringBoot实现MD5加盐算法的示例代码

《SpringBoot实现MD5加盐算法的示例代码》加盐算法是一种用于增强密码安全性的技术,本文主要介绍了SpringBoot实现MD5加盐算法的示例代码,文中通过示例代码介绍的非常详细,对大家的学习... 目录一、什么是加盐算法二、如何实现加盐算法2.1 加盐算法代码实现2.2 注册页面中进行密码加盐2.

Java时间轮调度算法的代码实现

《Java时间轮调度算法的代码实现》时间轮是一种高效的定时调度算法,主要用于管理延时任务或周期性任务,它通过一个环形数组(时间轮)和指针来实现,将大量定时任务分摊到固定的时间槽中,极大地降低了时间复杂... 目录1、简述2、时间轮的原理3. 时间轮的实现步骤3.1 定义时间槽3.2 定义时间轮3.3 使用时

一文详解SQL Server如何跟踪自动统计信息更新

《一文详解SQLServer如何跟踪自动统计信息更新》SQLServer数据库中,我们都清楚统计信息对于优化器来说非常重要,所以本文就来和大家简单聊一聊SQLServer如何跟踪自动统计信息更新吧... SQL Server数据库中,我们都清楚统计信息对于优化器来说非常重要。一般情况下,我们会开启"自动更新

Flask 验证码自动生成的实现示例

《Flask验证码自动生成的实现示例》本文主要介绍了Flask验证码自动生成的实现示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习... 目录生成图片以及结果处理验证码蓝图html页面展示想必验证码大家都有所了解,但是可以自己定义图片验证码

Python Excel实现自动添加编号

《PythonExcel实现自动添加编号》这篇文章主要为大家详细介绍了如何使用Python在Excel中实现自动添加编号效果,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1、背景介绍2、库的安装3、核心代码4、完整代码1、背景介绍简单的说,就是在Excel中有一列h=会有重复

如何通过Golang的container/list实现LRU缓存算法

《如何通过Golang的container/list实现LRU缓存算法》文章介绍了Go语言中container/list包实现的双向链表,并探讨了如何使用链表实现LRU缓存,LRU缓存通过维护一个双向... 目录力扣:146. LRU 缓存主要结构 List 和 Element常用方法1. 初始化链表2.

Springboot的自动配置是什么及注意事项

《Springboot的自动配置是什么及注意事项》SpringBoot的自动配置(Auto-configuration)是指框架根据项目的依赖和应用程序的环境自动配置Spring应用上下文中的Bean... 目录核心概念:自动配置的关键特点:自动配置工作原理:示例:需要注意的点1.默认配置可能不适合所有场景

golang字符串匹配算法解读

《golang字符串匹配算法解读》文章介绍了字符串匹配算法的原理,特别是Knuth-Morris-Pratt(KMP)算法,该算法通过构建模式串的前缀表来减少匹配时的不必要的字符比较,从而提高效率,在... 目录简介KMP实现代码总结简介字符串匹配算法主要用于在一个较长的文本串中查找一个较短的字符串(称为