词元化专题

tokenizer(词元化方法),嵌入向量

1. 词元化方法 BPE (Byte-Pair Encoding) BPE 是一种常用的词元化方法,主要用于处理文本中的词汇表。 工作原理:BPE 是一种数据压缩算法,通过反复合并文本中最频繁出现的字符对,生成新的子词单元。例如,在英语中,可能会将 “l” 和 “o” 合并为 “lo”,然后再将 “lo” 和 “ve” 合并为 “love”。优点:BPE 生成的子词单元可以有效减少词汇表大小,

AI大模型探索之路-训练篇5:大语言模型预训练数据准备-词元化

系列文章目录🚩 AI大模型探索之路-训练篇1:大语言模型微调基础认知 AI大模型探索之路-训练篇2:大语言模型预训练基础认知 AI大模型探索之路-训练篇3:大语言模型全景解读 AI大模型探索之路-训练篇4:大语言模型训练数据集概览 文章目录 系列文章目录🚩前言一、概述二、分词的粒度三、分词器的类型四、BPE/BBPE分词五、WordPiece分词六、Unigram 分词七、分词器