深度学习：手撕 RNN（1）-RNN 的直观认识

本文主要是介绍深度学习：手撕 RNN（1）-RNN 的直观认识，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

本文首次发表于知乎，欢迎关注作者。

1. RNN是什么

RNN（Recurrent Neural Network）存在很多变体，为了方便叙述和理解，本文选取一个基本的 RNN 结构进行说明，该结构与 pytorch 中的 RNN 函数（[1]）相同。

对于 MLP 或者 CNN 架构的模型，每一个输入 $x_i$ ，仅有一个 label $y_i$ 与之对应，不同样本之间的输入和输出没有依赖关系。如图 1-1，给 CNN 模型展示“北极熊”的图片，模型输出“北极熊”，给模型展示“小猫”的图片，模型输出“小猫”，“北极熊”和“小猫”之间没有任何联系，像这种模型属于“one-shot” 模型。但我们的人脑不是“one-shot”模型，我们的人脑不断的接收信息，然后再结合以前的经验和记忆，处理当前的信息，最后得到输出，然后再将相关信息传递给下一个时刻。比如看到“北极熊”时，我们的大脑当前时刻输出为“北极熊”，下一个时刻输出“逃跑”；看到“小猫”时，当前时刻大脑识别出“小猫”，下一时刻大脑输出“抚摸小猫”。

图 1-1: CNN 输入输出模式

对于非“one-shot”的模型，在处理每个时刻的输入数据时，模型还结合了过去时刻的“经验”或者“记忆”，这样不同时刻的输入/输出便存在了依赖关系。对于某些任务，不同样本 $x_i$ 的 label $y_i$ 存在一些依赖关系，我们需要设计一个模型刻画不同 label $y_i$ 的依赖关系。如 NLP 领域的序列标注问题，或者股票的价格预测问题，在这些任务中，每一个时刻的输出不仅仅取决于当前时刻的输入，而且还依赖前一个时刻的相关信息（经验/记忆）。基于这些需求，人们设计出 RNN（Recurrent Neural Network）。如图 1-2，将一个 RNN 模块按照不同时刻进行展开。

图 1-2: RNN 不同时刻展开

我们可以看到，每个时刻的 Cell，将过去时刻的隐状态（经验/记忆） $h_{t-1}$ 与当前时刻的输入 $x_t$ 结合生成新的隐状态（经验/记忆），为了方便理解我们将隐状态也叫做 memory:

然后再将 memory $h_t$ 通过 MLP 的变换后得到输出 $y_t$ :

本文描述了一个基本的 RNN 的运行机制，以及它的内部结构。RNN 的特点是在每个时刻不仅有当前时刻的输入 $x_t$ ，而且还有上一个时刻的 memory $h_t$ ，这样使不同时刻的数据关联起来。下一篇文章我们以这个基本的 RNN 为单元，搭建常见的 RNN 架构。

2. 参考

pytorch 的 RNN 文档 RNN — PyTorch 2.3 documentation

3. 团队介绍

「三翼鸟数字化技术平台-智慧设计团队」依托实体建模技术与人工智能技术打造面向家电的智能设计平台，为海尔特色的成套家电和智慧场景提供可视可触的虚拟现实体验。智慧设计团队提供全链路设计，涵盖概念化设计、深化设计、智能仿真、快速报价、模拟施工、快速出图、交易交付、设备检修等关键环节，为全屋家电设计提供一站式解决方案。

这篇关于深度学习：手撕 RNN（1）-RNN 的直观认识的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！