深度学习——LLM大模型分词

2024-08-30 11:52
文章标签 学习 深度 模型 llm 分词

本文主要是介绍深度学习——LLM大模型分词,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1. 前言

自从chatgpt出现,大模型的发展就进入了快车道,各种各样的大模型卷上天,作为一个在大模型时代的科研人,即使你不向前,也会被时代裹挟着向前,所以还是自己走快一点比较好,免得被后浪拍死在沙滩上。对于我而言,写文章更多的是对知识的总结和回顾,当然如果我的文章能够对你的学习有所帮助我也是挺开心的。

这篇文章主要参考B站上的这位大神的视频以及Huggingface上的总结
B站视频LLM分词
Huggingface Tokenizers

另外大家也可以通过这个分词网站来玩一下分词:https://tiktokenizer.vercel.app
这里放上一张思维导图,方便大家理解整篇文章的脉络。
在这里插入图片描述

2. Token,Tokenization和Tokenizer的概念

首先,什么是Token?什么是Tokenization? 什么又是Tokenizer
Token:是文本数据的基本单元也即词元,通常表示一个词、子词或字符.
Tokenization:Tokenization中文翻译为分词,是将原始文本字符串分割成一系列Token的过程。这个过程可以有不同的粒度,比如单词级别分词(Word-based Tokenizer)、字符级别分词(Character-based Tokenizer)和子词级别分词(Subword-based Tokenizer)。
Tokenizer: 是将文本切分成多个tokens的工具或算法
另外再NLP中我们经常会遇到一个词OOV(Out Of Vocabulary),意思是有些单词在词典中查询不到,例如一些根据词根现造的词,或者拼写错误的词等

接下来,我们首先介绍两种比较容易理解的分词Word-based TokenizerCharacter-based Tokenizer

3. Word-based Tokenizer

Word-based Tokenization 是将将文本划分为一个个词(包括标点)

我们以这句话为例:"Don't you love 🤗 Transformers? We sure do."

一种最简单的方法是通过空格进行划分:

["Don't", "you", "love", "🤗", "Transformers?", "We", "sure", "do."]

在这种划分下,标点和单词是粘在一起的: ["Transformers?","do."],,如果把标点也作为一个词的话,可以进一步划分:

["Don", "'", "t", "you", "love", "🤗", "Transformers", "?", "We", "sure", "do", "."]

但是这里的Don't 应该被划分为Do,n't,引入规则之后事情就变得复杂起来了。

英文的划分有两个常用的基于规则的工具spaCyMoses,划分如下:

["Do", "n't", "you", "love", "🤗", "Transformers", "?", "We", "sure", "do", "."]

使用Word-base Tokenizer,
优点是:符合人的自然语言和直觉。
缺点是: ①相同意思的词被划分为不同的token,比如:dog和dogs ② 最终的词表会非常大

在这里插入图片描述
因此我们可以设置词表上限比如上限为10000,未知的词用Unkown表示
在这里插入图片描述
但是这样会损失大量的信息,模型性能大打折扣!

4. Character-based Tokenizer

Character-based Tokenizer 将文本划分为一个个字符(包括标点)。
我们以这个例子为例: Today is Sunday.

按照Character 划分,我们可以得到

["T","o","d","a","y","i","s","S","u","n","d","a","y"]

使用Character-based Tokenizer 划分的优点是
① 大大减少了词汇量,在256个ASCII码表示的范围内
② 可以表示任意字符,不会出现unkown的情况
缺点是
①字母包含的信息量低,一个字母"T” 无法知道它具体指代的是什么,但如果是"Today"语义就比较明确
②相对于Word-based Tokenizer ,会产生很长的token序列
③如果是中文,依然会有很大的词汇量

5. Subword-based Tokenizer

在了解了Word-based Tokenizer和Character-based Tokenizer之后,我知道它们各有优缺点,接下来要介绍的Subword-based Tokenizer 则是这两种方法的折中。
在这里插入图片描述

Subword-based Tokenizer有BPE/BBPE,Unigram,WordPiece和SentencePiece,这些分词算法在下列模型中有应用
在这里插入图片描述

5.1 BPE/BBPE

5.1.1 BPE

BPE分词最早在 Neural Machine Translation of Rare Words with Subword Units (Sennrich et al.2015)中提出.BPE分为两部分“词频统计”“词表合并”。词频统计依赖于一个预分词器(pre-tokenization)将训练数据分成单词。预分词器可以非常简单,按照空格进行分词。例如GPT2,RoBERTa等就是这样实现的,更高级的预分词器引入了基于规则的分词,例如XLM,FlauBERT 使用Moses, GPT 使用spaCyftfy来统计语料中每个单词的词频。

在预分词之后,创建一个包含不同单词和对应词频的集合,接下来根据这个集合创建包含所有字符的词表,再根据合并规则两两合并形成一个新字符,将频率最高的新字符加入词表,直到达到预先设置的数量,停止合并。

仅仅讲概念可能会比较抽象,我们这里举个例子:

假设在预分词(一般采用Word-based Tokenization)之后,得到如下的包含词频的集合:

("hug", 10), ("pug", 5), ("pun", 12), ("bun", 4), ("hugs", 5)

因此,基本词汇表是这样的:["b", "g", "h", "n", "p", "s", "u"] ,将所有单词按照词汇表里的字符切割得到如下形式:

("h" "u" "g", 10), ("p" "u" "g", 5), ("p" "u" "n", 12), ("b" "u" "n", 4), ("h" "u" "g" "s", 5)

接下来统计相邻的两个字符组成的字符对的出现的频率:

在这里插入图片描述
ug出现了20次,出现次数最高,因此把ug加入词汇表,并将出现在一起的u,g用ug替换,然后在此统计词频un出现的频率最高,将un加入到词表,并将出现在一起的u,n用un替换。
在这里插入图片描述
接着进行第三次
在这里插入图片描述
假设基本词汇有478个,经过了40000次合并就有40478个,然后我利用这个词表进行分词,对于不在词表中的设置为特殊词<unk>
在这里插入图片描述

5.1.2 BBPE

重点介绍一下BBPE ,因为GPT2,GPT3,GPT4和LLaMA用的就是它,BBPE即 Byte-level BPE

5.2 Unigram

5.3 WordPiece

5.4 SentencePiece

BPE、WordPiece、Unigram 的缺点:
①假设输入文本使用空格来分隔单词,但并非所有语言都使用空格来分隔单词(如中文、韩文、日文、阿拉伯语)
②可以使用特定语言的pre-tokenizer 分词,但不太通用
为解决这个问题,SentencePiece将输入视为输入字节流,包括空格 然后搭配BBPE和Unigram来使用

参考文献

简介NLP中的Tokenization(基于Word,Subword 和 Character)
https://zhuanlan.zhihu.com/p/620603105
https://blog.csdn.net/zhaohongfei_358/article/details/123379481
LLM大语言模型之Tokenization分词方法

这篇关于深度学习——LLM大模型分词的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1120743

相关文章

Node.js 中 http 模块的深度剖析与实战应用小结

《Node.js中http模块的深度剖析与实战应用小结》本文详细介绍了Node.js中的http模块,从创建HTTP服务器、处理请求与响应,到获取请求参数,每个环节都通过代码示例进行解析,旨在帮... 目录Node.js 中 http 模块的深度剖析与实战应用一、引言二、创建 HTTP 服务器:基石搭建(一

Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)

《Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)》:本文主要介绍Python基于火山引擎豆包大模型搭建QQ机器人详细的相关资料,包括开通模型、配置APIKEY鉴权和SD... 目录豆包大模型概述开通模型付费安装 SDK 环境配置 API KEY 鉴权Ark 模型接口Prompt

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]