Pytorch微调BERT实现命名实体识别

本文主要是介绍Pytorch微调BERT实现命名实体识别，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

《Pytorch微调BERT实现命名实体识别》命名实体识别（NER）是自然语言处理（NLP）中的一项关键任务,它涉及识别和分类文本中的关键实体,BERT是一种强大的语言表示模型,在各种NLP任务中显著...

环境准备

在继续之前，确保你已经安装了PyTorch， Transformers by hugs Face和其他必要的python库：

pip install torch transformers datasets

加载预训练BERT模型

首先导入所需的模块并加载预训练的BERT模型。我们使用“bert-base-case”模型作为起点：

from transformers import BertTokenizer, BertForTokenClassification
import torch

# Load pre-trained model tokenizer (vocabulary)
tokenizer = BertTokenizer.from_pretrained('bert-base-cased')

# Load pre-trained model for token classification
model = BertForTokenClassification.from_pretrained('bert-base-cased', num_labels=9)

这里，num_labels表示我们希望分类的实体类型的数量。对于简单的NER任务，这可能包括PERSON、ORGANIZATION、LOCATION等标签。

准备数据集

我们将使用hug Face数据集库来加载数据集。我们将用‘conll2003’数据集来演示这一点：

from datasets import load_dataset

dataset = load_dataset("conll2003")

CoNLL-2003 数据集包含单词、词性标记、句法块标记和命名实体标记。对于NER任务，我们感兴趣的是“NER”标签。它是经典的 英文命名实体识别（Named Entity Recognition, NER） 数据集。以下是详细介绍：

1. 数据集背景

全称: Conference on Neural Information Processing Systems (CoNLL) 2003 Task
领域: 自然语言处理（NLP）
任务: 命名实体识别（NER）
语言: 英文（English）
主办方: CoNLL 会议（Hugging Face js的 load_dataset 已将其整合到平台）

2. 核心内容

标注实体类型

数据集中定义了以下 js4 种实体类型：

PER（人名，如 “John Smith”）
ORG（组织机构，如 “Google”）
LOC（地理位置，如 “New York”）
DATE（日期，如 “2023-10-05”）

数据格式

结构: 每条数据是一个句子，按空格分割的单词列表，每个单词附带对应的标签。
示例:

[
  {"word": "John", "label": "PER"},
  {"word": "works", "label": "O"},
  {"word": "at", "label": "O"},
  {"word": "Google", "label": "ORG"},
  ...
]

列名: text（句子原文）、words（分词后的单词列表）、labels（实体标签）。

数据集划分

训练集: ~14,000 句子
验证集: ~3,00http://www.chinasem.cn0 句子
测试集: ~3,000 句子

3. 应用场景

训练 NER 模型: 如 RNN、LSTM、Transformer（BERT 等）。
评估模型性能: 官方提供了基准结果（如 F1 分数），可用于对比模型效果。
研究 NLP 任务: 分析实体识别的难点（如歧义、复合实体）。

注意事项

标注标准: 标签为 O 表示非实体，其他为具体实体类型。
数据规模: 相比现代数据集（如 OntoNotes），句子和单词数量较小，适合快速验证模型。
扩展性: 可与http://www.chinasem.cn其他 NER 数据集（如 conll2000、nerdb）结合使用以提升模型泛化能力。

标记与对齐

在通过 BERT 处理数据之前，正确地对其进行标记并管理词块标记化至关重要，这包括正确对齐实体标签。以下是我们在数据集上进行标记化和对齐的方式：

def tokenize_and_align_labels(examples):
    tokenized_inputs = 
    tokenizer(examples["tokens"], 
              truncation=True, 
     China编程         padding="max_length", 
              is_split_into_words=True)
    labels = []
    for i, label in enumerate(examples["ner"]):
        word_ids = tokenized_inputs.word_ids(BATch_index=i)
        previous_word_idx = None
        label_ids = []
        for word_idx in word_ids:
            if word_idx is None:
                label_ids.append(-100)
            elif word_idx != previous_word_idx:
                label_ids.append(label[word_idx])
            else:
                label_ids.append(-100)
            previous_word_idx = word_idx
        labels.append(label_ids)
    tokenized_inputs["labels"] = labels
    return tokenized_inputs

# Apply tokenizer
encoded_dataset = dataset.map(tokenize_and_align_labels, batched=True)

这段代码的作用是对 命名实体识别（NER）数据进行分词（Tokenization）和标签对齐（Label Alignment），使其适配预训练模型（如 BERT、RoBERTa 等）的输入格式。以下是逐行解释和核心逻辑分析：

输入 examples 包含两个关键字段：
- "tokens": 原始句子的单词列表（如 [["John", "works", "at"], ...]）。
- "ner": 对应的实体标签列表（如 [["PER", "O", "O"], ...]）。
输出:
- tokenized_inputs: 分词后的模型输入（包含 input_ids, attention_mask 等）。
- labels: 与模型输出对齐的标签（将原始标签映射到分词后的子词位置）。

-100 标签用于在训练期间屏蔽标签，并且对应于在损失计算过程中必须跳过的标记。

微调 BERT

让我们使用 PyTorch 框架设置数据加载器，并定义训练和评估函数。此过程涉及配置优化器、设置学习率以及建立微调循环：

from torch.utils.data import DataLoader
from transformers import AdamW

train_dataset = encoded_dataset["train"]
train_dataloader = DataLoader(train_dataset, shuffle=True, batch_size=16)

optimizer = AdamW(model.parameters(), lr=5e-5)

model.train()
for epoch in range(3):  # loop over the dataset multiple times
    for batch in train_dataloader:
        inputs = {k: v.to(device) for k, v in batch.items() if k != "labels"}
        labels = batch["labels"].to(device)
        outputs = model(**inputs, labels=labels)
        loss = outputs.loss
        loss.backward()
        optimizer.step()
        optimizer.zero_grad()

训练通常需要对 GPU 利用率给予特别关注。如果具备使用 GPU 的条件，请确保您的模型、输入数据以及优化器都已迁移到 GPU 上。