【大规模语言模型：从理论到实践】Transformer中PositionalEncoder详解

本文主要是介绍【大规模语言模型：从理论到实践】Transformer中PositionalEncoder详解，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

书籍链接：大规模语言模型：从理论到实践

第15页位置表示层代码详解
PositionalEncoder

1. 构造函数 `init()`

def __init__(self, d_model, max_seq_len=80):super().__init__()self.d_model = d_model  # 嵌入的维度（embedding dimension）

d_model: 表示输入词向量的维度。
max_seq_len: 表示句子的最大长度（最大序列长度）。
self.d_model: 保存词嵌入的维度。

创建 PE 矩阵

pe = torch.zeros(max_seq_len, d_model)
for pos in range(max_seq_len):for i in range(0, d_model, 2):pe[pos, i] = math.sin(pos / (10000 ** ((2 * i)/d_model)))pe[pos, i + 1] = math.cos(pos / (10000 ** ((2 * (i + 1))/d_model)))

这里，我们为所有可能的位置 pos 和维度 i 生成了位置编码矩阵 pe。编码规则是使用正弦和余弦函数来生成位置编码：

对于每个位置 pos，在每个嵌入维度 i 上：
- 奇数维度使用正弦函数 sin(pos / 10000^(2i/d_model))
- 偶数维度使用余弦函数 cos(pos / 10000^(2i/d_model))
这样做的好处是，正弦和余弦函数生成了一个平滑的周期性变化，使得位置编码具有一定的连续性和距离信息。

pe = pe.unsqueeze(0)
self.register_buffer('pe', pe)

pe.unsqueeze(0)：将 pe 的第一个维度扩展为 1，这是为了便于后续将其与输入批次结合在一起。
register_buffer：将 pe 作为一个不可训练的参数（Tensor），并注册为模型的一部分，以确保其在模型的 .cuda() 或 .to(device) 等操作时也能够转移到对应设备上。

2. 前向传播 `forward()`

def forward(self, x):x = x * math.sqrt(self.d_model)  # 对输入乘以嵌入维度的平方根，使得它们的值更大一些

这里的 x 是输入的词嵌入（word embeddings），即一个形状为 [batch_size, seq_len, d_model] 的张量。
x = x * math.sqrt(self.d_model)：这一行操作是为了放大嵌入值，使得单词嵌入值的范围更加合适。

seq_len = x.size(1)  # 获取序列长度（句子长度）
x = x + Variable(self.pe[:, :seq_len], requires_grad=False).cuda()

seq_len = x.size(1)：获取当前输入序列的长度。
self.pe[:, :seq_len]：根据当前序列长度，从 pe 中提取对应的位置信息（只取前 seq_len 个位置的编码）。
x + Variable(self.pe[:, :seq_len], requires_grad=False).cuda()：将位置信息 pe 添加到输入词嵌入中。requires_grad=False 表示不对位置编码进行梯度更新。

3. 详细分析`x + Variable(self.pe[:, :seq_len], requires_grad=False).cuda()`

这行代码在位置编码器中的作用是将预计算好的位置编码矩阵 pe 加到输入的词嵌入矩阵 x 上。这是为了在词嵌入的基础上加入位置信息，使模型能够同时使用词汇语义和位置信息。我们分解这句话的各个部分：

x = x + Variable(self.pe[:, :seq_len], requires_grad=False).cuda()

1. `self.pe[:, :seq_len]`

self.pe 是我们在初始化时生成的位置编码矩阵，其形状为 [1, max_seq_len, d_model]。
- 这里的 1 是 batch 维度，用来保持与输入张量 x 形状的一致性。
- max_seq_len 是句子可能的最大长度，表示可以编码的最大序列长度。
- d_model 是词嵌入的维度。
self.pe[:, :seq_len] 表示从 pe 矩阵中取出前 seq_len 个位置的编码。这个操作的作用是根据输入句子的实际长度（seq_len）来选择对应长度的位置信息。例如，如果 seq_len 是 50，则取出 pe 中前 50 行的编码。

2. `Variable(self.pe[:, :seq_len], requires_grad=False)`

Variable 是用于包裹张量，使其在反向传播中能够区分哪些需要计算梯度，哪些不需要。
- requires_grad=False 表示位置编码 pe 不参与梯度计算，位置编码是一个固定值，不会像模型权重那样进行训练或更新。

注意： 在较新的版本的 PyTorch 中，Variable 已经被整合到了 Tensor 中，不再需要显式使用 Variable。直接使用张量即可，它们本身已经具有 requires_grad 属性。

3. `.cuda()`

.cuda() 将张量移动到 GPU 上进行计算，确保模型的所有张量在同一个设备上。如果你使用的是 CPU，这一部分会报错或需要改成 .to(device)，以便适应不同设备。

4. `x + self.pe[:, :seq_len]`

x 是输入的词嵌入矩阵，形状为 [batch_size, seq_len, d_model]。
self.pe[:, :seq_len] 是位置编码矩阵，形状为 [1, seq_len, d_model]，即与 x 的第二、第三维度一致。
加法操作：x + self.pe[:, :seq_len] 表示将对应位置的词嵌入和位置编码逐元素相加。这个加法是一个广播操作，即 self.pe 的第一个维度为 1，自动扩展到与 x 的 batch_size 相同大小，然后再进行相加操作。

5. `self.pe[:, :seq_len]`和`self.pe[:, :seq_len, :]`相互替换。

两者在功能上是等价的，但后者更明确地表达了正在获取 pe 矩阵的所有维度。这种做法在某些情况下可以提高代码的可读性，特别是当你的张量具有多个维度时。

这篇关于【大规模语言模型：从理论到实践】Transformer中PositionalEncoder详解的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

【大规模语言模型：从理论到实践】Transformer中PositionalEncoder详解

1. 构造函数 `init()`

创建 PE 矩阵

2. 前向传播 `forward()`

3. 详细分析`x + Variable(self.pe[:, :seq_len], requires_grad=False).cuda()`

1. `self.pe[:, :seq_len]`

2. `Variable(self.pe[:, :seq_len], requires_grad=False)`

3. `.cuda()`

4. `x + self.pe[:, :seq_len]`

5. `self.pe[:, :seq_len]`和`self.pe[:, :seq_len, :]`相互替换。

相关文章

Java内存分配与JVM参数详解(推荐)

Java中的雪花算法Snowflake解析与实践技巧

Python中注释使用方法举例详解

mysql表操作与查询功能详解

MySQL中的锁机制详解之全局锁,表级锁,行级锁

MySQL数据库中ENUM的用法是什么详解

MySQL count()聚合函数详解

Go语言中nil判断的注意事项(最新推荐)

一文详解Git中分支本地和远程删除的方法

Go语言数据库编程GORM 的基本使用详解

【大规模语言模型：从理论到实践】Transformer中PositionalEncoder详解

1. 构造函数 __init__()

创建 PE 矩阵

2. 前向传播 forward()

3. 详细分析x + Variable(self.pe[:, :seq_len], requires_grad=False).cuda()

1. self.pe[:, :seq_len]

2. Variable(self.pe[:, :seq_len], requires_grad=False)

3. .cuda()

4. x + self.pe[:, :seq_len]

5. self.pe[:, :seq_len]和self.pe[:, :seq_len, :]相互替换。

相关文章

1. 构造函数 `init()`

2. 前向传播 `forward()`

3. 详细分析`x + Variable(self.pe[:, :seq_len], requires_grad=False).cuda()`

1. `self.pe[:, :seq_len]`

2. `Variable(self.pe[:, :seq_len], requires_grad=False)`

3. `.cuda()`

4. `x + self.pe[:, :seq_len]`

5. `self.pe[:, :seq_len]`和`self.pe[:, :seq_len, :]`相互替换。