Pytorch如何获取BERT模型最后一层隐藏状态的CLS的embedding?

2024-08-21 16:12

本文主要是介绍Pytorch如何获取BERT模型最后一层隐藏状态的CLS的embedding?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

遇到问题

BERT模型中最后一层的句子的CLS的embedding怎么获取?
来源于阅读 An Interpretability Illusion for BERT这篇论文

We began by creating embeddings for the 624,712 sentences
in our four datasets. To do this, we used the BERT-base
uncased model from the HuggingFace Transformers library
with no fine tuning or dataset specific modifications. We
used the final layer hidden state of each sentence’s [CLS]
token as its embedding.这最后一句话用代码实现

解决方法

经询问GPT4o,获得的答案如下:

你想要使用 BERT 模型的最后一层隐藏状态作为句子的嵌入(embedding),可以通过以下代码来实现。这段代码使用 transformers 库中的 BERT 模型来处理句子,并提取 [CLS] token 的嵌入。

from transformers import BertTokenizer, BertModel
import torch# 加载预训练的 BERT 模型和 tokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained('bert-base-uncased')# 将模型设置为评估模式
model.eval()# 输入的句子
sentence = "This is an example sentence."# 对输入的句子进行编码
inputs = tokenizer(sentence, return_tensors='pt')# 获取模型的输出
with torch.no_grad():outputs = model(**inputs)# 获取最后一层的隐藏状态 (outputs.last_hidden_state)
last_hidden_state = outputs.last_hidden_state# 获取 [CLS] token 的嵌入 (最后一层隐藏状态的第一个 token)
cls_embedding = last_hidden_state[:, 0, :]print(cls_embedding)

代码说明:

  1. 加载 BERT 模型和 Tokenizer:

    • BertTokenizerBertModel 分别用于对文本进行标记化和加载预训练的 BERT 模型。
    • 我们使用了 bert-base-uncased 版本的模型。
  2. 设置模型为评估模式:

    • model.eval() 将模型设置为评估模式,关闭 dropout 和 batch normalization。
  3. 编码输入句子:

    • tokenizer(sentence, return_tensors='pt') 将句子转换为模型所需的输入格式。return_tensors='pt' 表示输出为 PyTorch 张量。
  4. 获取模型输出:

    • model(**inputs) 返回一个 BaseModelOutputWithPoolingAndCrossAttentions 对象,其中包含模型的隐藏状态。
    • outputs.last_hidden_state 是最后一层的隐藏状态,形状为 (batch_size, sequence_length, hidden_size)
  5. 提取 [CLS] token 的嵌入:

    • [CLS] token 的嵌入对应于最后一层隐藏状态的第一个 token (last_hidden_state[:, 0, :]),其形状为 (batch_size, hidden_size)
  6. 打印嵌入:

    • cls_embedding 是输入句子的嵌入。

对切片的解释

对上面一句切片的解释:

cls_embedding = last_hidden_state[:, 0, :] 这行代码中,[:, 0, :] 是一种高级的切片(slicing)语法,用于从 last_hidden_state 张量中提取特定的元素。让我们逐个解析这部分代码:

last_hidden_state 的维度

假设 last_hidden_state 是一个形状为 (batch_size, sequence_length, hidden_size) 的三维张量:

  • batch_size: 表示一批次中句子的数量(批次大小)。
  • sequence_length: 表示每个句子中的 token 数量。
  • hidden_size: 表示 BERT 模型的隐藏层大小(通常是 768 维度)。

切片语法解释

  • :: 代表取所有该维度的元素。
  • 0: 代表取该维度的第一个元素(索引从 0 开始)。
  • :: 再次代表取所有该维度的元素。

因此,[:, 0, :] 分别应用于 batch_size, sequence_length, 和 hidden_size 这三个维度。

具体解释

  1. :(第一个维度):

    • 代表取 batch_size 维度上的所有元素,即包含每个句子的结果。
  2. 0(第二个维度):

    • 代表取 sequence_length 维度上的第一个元素,也就是每个句子中的第一个 token 的隐藏状态。在 BERT 的输出中,第一个 token 通常是 [CLS] token。
  3. :(第三个维度):

    • 代表取 hidden_size 维度上的所有元素,也就是 [CLS] token 的整个隐藏状态向量。

总结

  • last_hidden_state[:, 0, :] 提取了每个句子的 [CLS] token 的隐藏状态向量,其中 batch_size 维度保持不变。
  • 最终得到的 cls_embedding 是一个形状为 (batch_size, hidden_size) 的二维张量,其中每一行是对应句子的 [CLS] token 的嵌入向量。

后记

2024年8月21日12点43分于上海,基于GPT4o大模型生成。

这篇关于Pytorch如何获取BERT模型最后一层隐藏状态的CLS的embedding?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1093645

相关文章

C#实现获取电脑中的端口号和硬件信息

《C#实现获取电脑中的端口号和硬件信息》这篇文章主要为大家详细介绍了C#实现获取电脑中的端口号和硬件信息的相关方法,文中的示例代码讲解详细,有需要的小伙伴可以参考一下... 我们经常在使用一个串口软件的时候,发现软件中的端口号并不是普通的COM1,而是带有硬件信息的。那么如果我们使用C#编写软件时候,如

C#实现WinForm控件焦点的获取与失去

《C#实现WinForm控件焦点的获取与失去》在一个数据输入表单中,当用户从一个文本框切换到另一个文本框时,需要准确地判断焦点的转移,以便进行数据验证、提示信息显示等操作,本文将探讨Winform控件... 目录前言获取焦点改变TabIndex属性值调用Focus方法失去焦点总结最后前言在一个数据输入表单

PyTorch使用教程之Tensor包详解

《PyTorch使用教程之Tensor包详解》这篇文章介绍了PyTorch中的张量(Tensor)数据结构,包括张量的数据类型、初始化、常用操作、属性等,张量是PyTorch框架中的核心数据结构,支持... 目录1、张量Tensor2、数据类型3、初始化(构造张量)4、常用操作5、常用属性5.1 存储(st

通过C#获取PDF中指定文本或所有文本的字体信息

《通过C#获取PDF中指定文本或所有文本的字体信息》在设计和出版行业中,字体的选择和使用对最终作品的质量有着重要影响,然而,有时我们可能会遇到包含未知字体的PDF文件,这使得我们无法准确地复制或修改文... 目录引言C# 获取PDF中指定文本的字体信息C# 获取PDF文档中用到的所有字体信息引言在设计和出

python中os.stat().st_size、os.path.getsize()获取文件大小

《python中os.stat().st_size、os.path.getsize()获取文件大小》本文介绍了使用os.stat()和os.path.getsize()函数获取文件大小,文中通过示例代... 目录一、os.stat().st_size二、os.path.getsize()三、函数封装一、os

Apache Tomcat服务器版本号隐藏的几种方法

《ApacheTomcat服务器版本号隐藏的几种方法》本文主要介绍了ApacheTomcat服务器版本号隐藏的几种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需... 目录1. 隐藏HTTP响应头中的Server信息编辑 server.XML 文件2. 修China编程改错误

Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)

《Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)》:本文主要介绍Python基于火山引擎豆包大模型搭建QQ机器人详细的相关资料,包括开通模型、配置APIKEY鉴权和SD... 目录豆包大模型概述开通模型付费安装 SDK 环境配置 API KEY 鉴权Ark 模型接口Prompt

python获取当前文件和目录路径的方法详解

《python获取当前文件和目录路径的方法详解》:本文主要介绍Python中获取当前文件路径和目录的方法,包括使用__file__关键字、os.path.abspath、os.path.realp... 目录1、获取当前文件路径2、获取当前文件所在目录3、os.path.abspath和os.path.re

Java子线程无法获取Attributes的解决方法(最新推荐)

《Java子线程无法获取Attributes的解决方法(最新推荐)》在Java多线程编程中,子线程无法直接获取主线程设置的Attributes是一个常见问题,本文探讨了这一问题的原因,并提供了两种解决... 目录一、问题原因二、解决方案1. 直接传递数据2. 使用ThreadLocal(适用于线程独立数据)

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行