小白学大模型：Hugging Face Tokenizer

本文主要是介绍小白学大模型：Hugging Face Tokenizer，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

Tokenizer介绍

在自然语言处理（NLP）领域，Tokenizer（分词器）是准备输入模型的关键步骤之一。Hugging Face 提供了用于各种模型的分词器库，其中大多数分词器都以两种风格提供：一种是完整的 Python 实现，另一种是基于 Rust 库 🤗 Tokenizers 的“Fast”实现。这两种实现方式各有特点，其中“Fast”实现具有两大优势：

显著提升速度： 特别是在批处理分词时，使用“Fast”实现可以获得显著的速度提升。
额外的方法： 提供了额外的方法，用于在原始字符串（字符和单词）与标记空间之间进行映射。例如，可以获取包含给定字符的标记的索引，或获取与给定标记对应的字符范围。

PreTrainedTokenizer 和 PreTrainedTokenizerFast 实现了所有分词器主要方法的核心功能：

分词（Tokenizing）： 将字符串分割成子词标记字符串，将标记字符串转换为标识符（ids）并反向转换，即进行编码/解码（即分词并转换为整数）。
向词汇表添加新标记： 以与底层结构（BPE、SentencePiece 等）无关的方式添加新标记。
管理特殊标记： 比如掩码、句首等，包括添加这些标记、将它们分配给分词器的属性以便轻松访问，并确保在分词过程中它们不会被拆分。

BatchEncoding 存储了 PreTrainedTokenizerBase 的编码方法（__call__、encode_plus 和 batch_encode_plus）的输出，是一个继承自 Python 字典的类。当分词器是纯 Python 分词器时，该类的行为与标准 Python 字典完全相同，存储了这些方法计算得到的各种模型输入（input_ids、attention_mask 等）。

当分词器是“Fast”分词器（即由 HuggingFace 的 tokenizers 库支持）时，该类提供了几种高级的对齐方法，可用于在原始字符串（字符和单词）与标记空间之间进行映射。例如，可以获取包含给定字符的标记的索引，或获取与给定标记对应的字符范围。这为更复杂的分析和理解模型输入与原始文本之间关系提供了便利。

Tokenizer用途

将文本拆分成较小块是一项比看起来更加困难的任务，而且有多种方法可以实现。例如，让我们看看句子 "Don't you love 🤗 Transformers? We sure do."。

一种简单的标记化方法是通过空格拆分，得到：

["Don't", "you", "love", "🤗", "Transformers?", "We", "sure", "do."]

这是一个明智的第一步，但如果我们看一下标记 "Transformers?" 和 "do."，我们会注意到标点符号附在单词 "Transformer" 和 "do" 上，这是不太理想的。我们应该考虑标点符号，以便模型不必学习单词及其可能跟随的每个可能的标点符号的不同表示，这将导致模型需要学习的表示数量激增。考虑标点符号后，对我们的示例文本进行标记化会得到：

["Don", "'", "t", "you", "love", "🤗", "Transformers", "?", "We", "sure", "do", "."]

更好了。然而，标记化处理单词 "Don't" 的方式并不理想。"Don't" 代表 "do not"，因此最好将其标记化为 ["Do", "n't"]。这就是事情开始变得复杂的地方，也是每个模型都有自己的分词器类型的原因之一。根据我们用于标记化文本的规则，相同文本的不同标记化输出会生成不同的结果。只有当输入与模型训练数据相同的规则进行标记化时，预训练模型才能正常运行。

spaCy 和 Moses 是两个受欢迎的基于规则的分词器。对我们的示例应用 spaCy 和 Moses，会得到类似以下的结果：

["Do", "n't", "you", "love", "🤗", "Transformers", "?", "We", "sure", "do", "."]

可以看到，这里使用了空格和标点标记化，以及基于规则的标记化。空格和标点标记化以及基于规则的标记化都是词标记化的示例，它宽泛地定义为将句子拆分为单词。虽然这是将文本分块的最直观方法，但对于大规模文本语料库可能会带来问题。

这么大的词汇表强迫模型拥有一个巨大的嵌入矩阵作为输入和输出层，从而导致内存和时间复杂性增加。通常来说，transformer 模型很少具有超过 50,000 的词汇表大小，特别是如果它们只在单一语言上进行预训练。

尽管字符标记化非常简单且可以大大减少内存和时间复杂性，但这使得模型更难学习有意义的输入表示。

不同的分词方法

接下来详细介绍了几种子词（subword）分词算法，主要包括Byte-Pair Encoding (BPE)，WordPiece，Unigram和SentencePiece。这些算法的共同目标是根据文本中的频率将词分解为有意义的子词，以便在建模中更好地处理语言。

Byte-Pair Encoding (BPE):
- BPE根据一个预分词器将训练数据拆分为单词。
- 创建一个基础词汇，包括训练数据中的所有符号。
- 学习合并规则，形成新的符号，直到达到所需的词汇大小。
- 合并规则基于符号对的频率，选择最常见的符号对进行合并。
- 通过合并规则，BPE创建一个包含合并后符号的词汇。
WordPiece:
- 与BPE相似，但不是选择最常见的符号对，而是选择最大化加入词汇后训练数据似然的符号对。
- WordPiece初始化词汇包括训练数据中的每个字符，并逐渐学习一定数量的合并规则。
Unigram:
- Unigram使用大量符号初始化基础词汇，并逐渐修剪每个符号以获得较小的词汇。
- 在每个训练步骤中，计算当前词汇和unigram语言模型给定训练数据的损失。
- 移除影响整体损失最小的符号，重复此过程直到词汇达到所需大小。
- Unigram保留基本字符，以便能够对任何单词进行分词。
SentencePiece:
- SentencePiece将输入视为原始输入流，将空格包括在要使用的字符集中。
- 使用BPE或unigram算法构建适当的词汇。
- SentencePiece用于处理不使用空格分隔单词的语言，如中文、日文和泰文。