2022清华暑校笔记之L2_2 CNN和RNN基础介绍

本文主要是介绍2022清华暑校笔记之L2_2 CNN和RNN基础介绍，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

2022清华大学大模型交叉研讨课

序列数据顺序记忆（大脑更易识别）

输入通常是不定长的数据，h为不同时间步的变量，y为输出
RNN结构单元

在这里插入图片描述
顺序记忆：每一个时间步的hi都是由上一个隐藏状态的内容，h0需要自己初始化的。

思路：优化单元，将隐藏层变复杂

将门控机制引入RNN，权衡过去的信息和当前输入信息的权重。观察式子我们发现，此处的W均为专属的权重
在这里插入图片描述

重置门
$\tilde{h}_{i}=\tanh \left(W_{x} x_{i}+r_{i} * W_{h} h_{i-1}+b\right)$
考虑到上一层的状态对当前的激活，我们可以得到一个临时的hi.
如果我们的ri接近于0的话，我们会发现hi和上一个hi的关系很弱。
更新门
$h_{i}=z_{i} * h_{i-1}+\left(1-z_{i}\right) * \tilde{h}_{i}$
权衡新得到的hi和hi-1之间的影响，从而得到传输到下一层的hi。
当zi接近于1的时候，hi和hi-1完全相等；当zi接近于0的时候，我们可以直接采用激活后的新hi。
演示

门控机制的好处：可以控制不同地方的关联性（快捷地建立较远的关系）；减少数量

Ct
- 新增了一个Ct表示cell的状态，用来学习长期的依赖关系。
Forget gate ft 遗忘门

$f_{t}=\sigma\left(W_{f} \cdot\left[h_{t-1}, x_{t}\right]+b_{f}\right)$
决定上一个状态中的哪些信息可以从cell中移除。计算方式：当前的状态和上一层隐藏层状态。最后得到的ft为0-1区间内。如果为0，表示过去的信息直接丢弃。
输入门

决定哪些信息可以存入cell状态中
- it：输入门参数
  $i_{t}=\sigma\left(W_{i} \cdot\left[h_{t-1}, x_{t}\right]+b_{i}\right)$
- $\tilde{C}_{t}$ 为待选的ct变量
  $\tilde{C}_{t}=\tanh \left(W_{C} \cdot\left[h_{t-1}, x_{t}\right]+b_{C}\right)$
更新cell state
- $C_{t}=f_{t} * C_{t-1}+i_{t} * \tilde{C}_{t}$
- 首先更新旧的cell state：将遗忘门乘上一层cell state，来决定哪些信息需要摒弃
- 将输入门和待选的新向量相乘，来决定当前哪些信息需要加入下一层的信息cell state。
输出门
输出门决定哪些信息可以输出
$o_{t}=\sigma\left(W_{o}\left[h_{t-1}, x_{t}\right]+b_{o}\right)$
$h_{t}=o_{t} * \tanh \left(C_{t}\right)$
(可以理解成调整一些信息来适应单词的表述）