Pytorch如何获取BERT模型最后一层隐藏状态的CLS的embedding?

2024-08-21 16:12

本文主要是介绍Pytorch如何获取BERT模型最后一层隐藏状态的CLS的embedding?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

遇到问题

BERT模型中最后一层的句子的CLS的embedding怎么获取?
来源于阅读 An Interpretability Illusion for BERT这篇论文

We began by creating embeddings for the 624,712 sentences
in our four datasets. To do this, we used the BERT-base
uncased model from the HuggingFace Transformers library
with no fine tuning or dataset specific modifications. We
used the final layer hidden state of each sentence’s [CLS]
token as its embedding.这最后一句话用代码实现

解决方法

经询问GPT4o,获得的答案如下:

你想要使用 BERT 模型的最后一层隐藏状态作为句子的嵌入(embedding),可以通过以下代码来实现。这段代码使用 transformers 库中的 BERT 模型来处理句子,并提取 [CLS] token 的嵌入。

from transformers import BertTokenizer, BertModel
import torch# 加载预训练的 BERT 模型和 tokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained('bert-base-uncased')# 将模型设置为评估模式
model.eval()# 输入的句子
sentence = "This is an example sentence."# 对输入的句子进行编码
inputs = tokenizer(sentence, return_tensors='pt')# 获取模型的输出
with torch.no_grad():outputs = model(**inputs)# 获取最后一层的隐藏状态 (outputs.last_hidden_state)
last_hidden_state = outputs.last_hidden_state# 获取 [CLS] token 的嵌入 (最后一层隐藏状态的第一个 token)
cls_embedding = last_hidden_state[:, 0, :]print(cls_embedding)

代码说明:

  1. 加载 BERT 模型和 Tokenizer:

    • BertTokenizerBertModel 分别用于对文本进行标记化和加载预训练的 BERT 模型。
    • 我们使用了 bert-base-uncased 版本的模型。
  2. 设置模型为评估模式:

    • model.eval() 将模型设置为评估模式,关闭 dropout 和 batch normalization。
  3. 编码输入句子:

    • tokenizer(sentence, return_tensors='pt') 将句子转换为模型所需的输入格式。return_tensors='pt' 表示输出为 PyTorch 张量。
  4. 获取模型输出:

    • model(**inputs) 返回一个 BaseModelOutputWithPoolingAndCrossAttentions 对象,其中包含模型的隐藏状态。
    • outputs.last_hidden_state 是最后一层的隐藏状态,形状为 (batch_size, sequence_length, hidden_size)
  5. 提取 [CLS] token 的嵌入:

    • [CLS] token 的嵌入对应于最后一层隐藏状态的第一个 token (last_hidden_state[:, 0, :]),其形状为 (batch_size, hidden_size)
  6. 打印嵌入:

    • cls_embedding 是输入句子的嵌入。

对切片的解释

对上面一句切片的解释:

cls_embedding = last_hidden_state[:, 0, :] 这行代码中,[:, 0, :] 是一种高级的切片(slicing)语法,用于从 last_hidden_state 张量中提取特定的元素。让我们逐个解析这部分代码:

last_hidden_state 的维度

假设 last_hidden_state 是一个形状为 (batch_size, sequence_length, hidden_size) 的三维张量:

  • batch_size: 表示一批次中句子的数量(批次大小)。
  • sequence_length: 表示每个句子中的 token 数量。
  • hidden_size: 表示 BERT 模型的隐藏层大小(通常是 768 维度)。

切片语法解释

  • :: 代表取所有该维度的元素。
  • 0: 代表取该维度的第一个元素(索引从 0 开始)。
  • :: 再次代表取所有该维度的元素。

因此,[:, 0, :] 分别应用于 batch_size, sequence_length, 和 hidden_size 这三个维度。

具体解释

  1. :(第一个维度):

    • 代表取 batch_size 维度上的所有元素,即包含每个句子的结果。
  2. 0(第二个维度):

    • 代表取 sequence_length 维度上的第一个元素,也就是每个句子中的第一个 token 的隐藏状态。在 BERT 的输出中,第一个 token 通常是 [CLS] token。
  3. :(第三个维度):

    • 代表取 hidden_size 维度上的所有元素,也就是 [CLS] token 的整个隐藏状态向量。

总结

  • last_hidden_state[:, 0, :] 提取了每个句子的 [CLS] token 的隐藏状态向量,其中 batch_size 维度保持不变。
  • 最终得到的 cls_embedding 是一个形状为 (batch_size, hidden_size) 的二维张量,其中每一行是对应句子的 [CLS] token 的嵌入向量。

后记

2024年8月21日12点43分于上海,基于GPT4o大模型生成。

这篇关于Pytorch如何获取BERT模型最后一层隐藏状态的CLS的embedding?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1093645

相关文章

基于Flask框架添加多个AI模型的API并进行交互

《基于Flask框架添加多个AI模型的API并进行交互》:本文主要介绍如何基于Flask框架开发AI模型API管理系统,允许用户添加、删除不同AI模型的API密钥,感兴趣的可以了解下... 目录1. 概述2. 后端代码说明2.1 依赖库导入2.2 应用初始化2.3 API 存储字典2.4 路由函数2.5 应

使用Python实现获取网页指定内容

《使用Python实现获取网页指定内容》在当今互联网时代,网页数据抓取是一项非常重要的技能,本文将带你从零开始学习如何使用Python获取网页中的指定内容,希望对大家有所帮助... 目录引言1. 网页抓取的基本概念2. python中的网页抓取库3. 安装必要的库4. 发送HTTP请求并获取网页内容5. 解

使用PyTorch实现手写数字识别功能

《使用PyTorch实现手写数字识别功能》在人工智能的世界里,计算机视觉是最具魅力的领域之一,通过PyTorch这一强大的深度学习框架,我们将在经典的MNIST数据集上,见证一个神经网络从零开始学会识... 目录当计算机学会“看”数字搭建开发环境MNIST数据集解析1. 认识手写数字数据库2. 数据预处理的

C++常见容器获取头元素的方法大全

《C++常见容器获取头元素的方法大全》在C++编程中,容器是存储和管理数据集合的重要工具,不同的容器提供了不同的接口来访问和操作其中的元素,获取容器的头元素(即第一个元素)是常见的操作之一,本文将详细... 目录一、std::vector二、std::list三、std::deque四、std::forwa

使用Python高效获取网络数据的操作指南

《使用Python高效获取网络数据的操作指南》网络爬虫是一种自动化程序,用于访问和提取网站上的数据,Python是进行网络爬虫开发的理想语言,拥有丰富的库和工具,使得编写和维护爬虫变得简单高效,本文将... 目录网络爬虫的基本概念常用库介绍安装库Requests和BeautifulSoup爬虫开发发送请求解

Android App安装列表获取方法(实践方案)

《AndroidApp安装列表获取方法(实践方案)》文章介绍了Android11及以上版本获取应用列表的方案调整,包括权限配置、白名单配置和action配置三种方式,并提供了相应的Java和Kotl... 目录前言实现方案         方案概述一、 androidManifest 三种配置方式

Pytorch微调BERT实现命名实体识别

《Pytorch微调BERT实现命名实体识别》命名实体识别(NER)是自然语言处理(NLP)中的一项关键任务,它涉及识别和分类文本中的关键实体,BERT是一种强大的语言表示模型,在各种NLP任务中显著... 目录环境准备加载预训练BERT模型准备数据集标记与对齐微调 BERT最后总结环境准备在继续之前,确

Python如何获取域名的SSL证书信息和到期时间

《Python如何获取域名的SSL证书信息和到期时间》在当今互联网时代,SSL证书的重要性不言而喻,它不仅为用户提供了安全的连接,还能提高网站的搜索引擎排名,那我们怎么才能通过Python获取域名的S... 目录了解SSL证书的基本概念使用python库来抓取SSL证书信息安装必要的库编写获取SSL证书信息

pytorch+torchvision+python版本对应及环境安装

《pytorch+torchvision+python版本对应及环境安装》本文主要介绍了pytorch+torchvision+python版本对应及环境安装,安装过程中需要注意Numpy版本的降级,... 目录一、版本对应二、安装命令(pip)1. 版本2. 安装全过程3. 命令相关解释参考文章一、版本对

Win32下C++实现快速获取硬盘分区信息

《Win32下C++实现快速获取硬盘分区信息》这篇文章主要为大家详细介绍了Win32下C++如何实现快速获取硬盘分区信息,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 实现代码CDiskDriveUtils.h#pragma once #include <wtypesbase