【HuggingFace Transformers】BertSelfOutput 和 BertOutput源码解析

本文主要是介绍【HuggingFace Transformers】BertSelfOutput 和 BertOutput源码解析，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

BertSelfOutput 和 BertOutput源码解析

1. 介绍
- 1.1 共同点
- - (1) 残差连接 (Residual Connection)
  - (2) 层归一化 (Layer Normalization)
  - (3) Dropout
  - (4) 线性变换 (Linear Transformation)
- 1.2 不同点
- - (1) 处理的输入类型
  - (2) 线性变换的作用
  - (3) 输入的特征大小
2. 源码解析
- 2.1 BertSelfOutput 源码解析
- 2.2 BertOutput 源码解析

1. 介绍

BertSelfOutput 和 BertOutput 是 BERT 模型中两个相关但不同的模块。它们在功能上有许多共同点，但也有一些关键的不同点。以下通过共同点和不同点来介绍它们。

1.1 共同点

BertSelfOutput 和 BertOutput 都包含残差连接、层归一化、Dropout 和线性变换，并且这些操作的顺序相似。

(1) 残差连接 (Residual Connection)

两个模块都应用了残差连接，即将模块的输入直接与经过线性变换后的输出相加。这种结构可以帮助缓解深层神经网络中的梯度消失问题，使信息更直接地传递，保持梯度流动顺畅。

(2) 层归一化 (Layer Normalization)

在应用残差连接后，两个模块都使用层归一化 (LayerNorm) 来规范化输出。这有助于加速训练，稳定网络性能，并减少内部分布变化的问题。

(3) Dropout

两个模块都包含一个 Dropout 层，用于随机屏蔽一部分神经元的输出，增强模型的泛化能力，防止过拟合。

(4) 线性变换 (Linear Transformation)

两个模块都包含一个线性变换 (dense 层)。这个线性变换用于调整数据的维度，并为后续的残差连接和层归一化做准备。

1.2 不同点

BertSelfOutput 专注于处理自注意力机制的输出，而 BertOutput 则处理前馈神经网络的输出。它们的输入特征维度也有所不同，线性变换的作用在两个模块中也略有差异。

(1) 处理的输入类型

BertSelfOutput：处理自注意力机制 (BertSelfAttention) 的输出。它关注的是如何将注意力机制生成的特征向量与原始输入结合起来。
BertOutput：处理的是前馈神经网络的输出。它将经过注意力机制处理后的特征进一步加工，并整合到当前层的最终输出中。

(2) 线性变换的作用

BertSelfOutput：线性变换的作用是对自注意力机制的输出进行进一步的变换和投影，使其适应后续的处理流程。
BertOutput：线性变换的作用是对前馈神经网络的输出进行变换，使其与前一层的输出相结合，并准备传递到下一层。

(3) 输入的特征大小

BertSelfOutput：输入和输出的特征维度保持一致，都是 BERT 模型的隐藏层大小 (hidden_size)。
BertOutput：输入的特征维度是中间层大小 (intermediate_size)，输出则是 BERT 模型的隐藏层大小 (hidden_size)。这意味着 BertOutput 的线性变换需要将中间层的维度转换回隐藏层的维度。

2. 源码解析

源码地址：transformers/src/transformers/models/bert/modeling_bert.py

2.1 BertSelfOutput 源码解析

# -*- coding: utf-8 -*-
# @time: 2024/7/15 14:27import torch
from torch import nnclass BertSelfOutput(nn.Module):def __init__(self, config):super().__init__()self.dense = nn.Linear(config.hidden_size, config.hidden_size)  # 定义线性变换层，将自注意力输出映射到 hidden_size 维度self.LayerNorm = nn.LayerNorm(config.hidden_size, eps=config.layer_norm_eps)  # 层归一化self.dropout = nn.Dropout(config.hidden_dropout_prob)  # Dropout层def forward(self, hidden_states: torch.Tensor, input_tensor: torch.Tensor) -> torch.Tensor:hidden_states = self.dense(hidden_states)  # 对自注意力机制的输出进行线性变换hidden_states = self.dropout(hidden_states)  # Dropout操作hidden_states = self.LayerNorm(hidden_states + input_tensor)  # 残差连接后进行层归一化return hidden_states

2.2 BertOutput 源码解析

# -*- coding: utf-8 -*-
# @time: 2024/8/22 15:41import torch
from torch import nnclass BertOutput(nn.Module):def __init__(self, config):super().__init__()self.dense = nn.Linear(config.intermediate_size, config.hidden_size)  # 定义线性变换层，将前馈神经网络输出从 intermediate_size 映射到 hidden_sizeself.LayerNorm = nn.LayerNorm(config.hidden_size, eps=config.layer_norm_eps)  # 层归一化self.dropout = nn.Dropout(config.hidden_dropout_prob)  # Dropout层def forward(self, hidden_states: torch.Tensor, input_tensor: torch.Tensor) -> torch.Tensor:hidden_states = self.dense(hidden_states)  # 对前馈神经网络的输出进行线性变换hidden_states = self.dropout(hidden_states)  # Dropout操作hidden_states = self.LayerNorm(hidden_states + input_tensor)  # 残差连接后进行层归一化return hidden_states

这篇关于【HuggingFace Transformers】BertSelfOutput 和 BertOutput源码解析的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

【HuggingFace Transformers】BertSelfOutput 和 BertOutput源码解析

BertSelfOutput 和 BertOutput源码解析

1. 介绍

1.1 共同点

(1) 残差连接 (Residual Connection)

(2) 层归一化 (Layer Normalization)

(3) Dropout

(4) 线性变换 (Linear Transformation)

1.2 不同点

(1) 处理的输入类型

(2) 线性变换的作用

(3) 输入的特征大小

2. 源码解析

2.1 BertSelfOutput 源码解析

2.2 BertOutput 源码解析

相关文章

Python使用getopt处理命令行参数示例解析(最佳实践)

Python利用ElementTree实现快速解析XML文件

Java的栈与队列实现代码解析

java解析jwt中的payload的用法

Python中init方法使用的深度解析

Java 正则表达式URL 匹配与源码全解析

使用Java将DOCX文档解析为Markdown文档的代码实现

Java字符串处理全解析(String、StringBuilder与StringBuffer)

Spring Boot循环依赖原理、解决方案与最佳实践(全解析)

C#中async await异步关键字用法和异步的底层原理全解析