本文主要是介绍Bert算法的前因后果,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
目录
- 1.基本概念:
- 2.Bert能够用来解决的问题:
- 3.Bert模型原理
- Bert原理参考链接:
- Bert的子结构
- attention的结构:
- Transformer
- Bert结构
- BERT模型预训练任务
- 4. BERT、ELMo 与GPT模型比较
- 5. BERT 应用到的11个NLP 项目
1.基本概念:
“Bert(Bidirectional Encoder Representations from Transformers),是基于Transformer算法的双向编码表征算法,Transformer算法基于多头注意力(Multi-Head attention)”
论文:BERT: Pre-training of Deep Bidirectional Transformers forLanguage Understanding
2.Bert能够用来解决的问题:
BERT的“里程碑”意义在于:证明了一个非常深的模型可以显著提高NLP任务的准确率,而这个模型可以从无标记数据集中预训练得到。
Bert能够用来做的任务:
一、文本分类 :文本分类/情感计算
二、序列标注任务,比如分词 实体识别 词性标注
三、句子关系判断 比如Entailment/QA/自然语言推理
(不能完成的NLP任务:4. 生成式任务:机器翻译/文本摘要)
bert刷新的11个记录:
刷新的11个NLP的任务,分为四大类下游任务
1.句子对分类任务
2.单句子分类任务
3.问答任务
4.单句子标注任务
3.Bert模型原理
在了解BERT算法原理需要了解两个概念:
Attention Is All You Need(Transformer)算法原理解析
Transformer模型详解
Bert原理参考链接:
BERT算法原理解析
NLP_BERT模型的介绍
BERT模型
Bert模型原文翻译
Bert的子结构
BERT是一种基于微调的多层双向Transformer编码器,其中的Transformer与原始的Transformer是相同的,并且实现了两个版本的BERT模型,在两个版本中前馈大小都设置为4层:
lBERTBASE:L=12,H=768,A=12,Total Parameters=110M
lBERTLARGE:L=24,H=1024,A=16,Total Parameters=340M
其中层数(即Transformer blocks块)表示为L,隐藏大小表示为H,自注意力的数量为A。
attention的结构:
谷歌在2017年提出了基于attention的结构来处理序列模型:
Encoder顾名思义就是对输入句子Source进行编码,将输入句子通过非线性变换转化为中间语义表示C:
C=f(x1,x2,…,xm)
解码器Decoder来说,其任务是根据句子Source的中间语义表示C和之前已经生成的历史信息
yi=g(C,y1,y2,…,yi−1)
在Encoder 与Decoder之间加入了不同的语义编码Ci来增加模型的注意力,语义编码Ci是由句子Source的每个单词经过Encoder编码产生的,这意味着生成的不同的单词,y1,y2或者y3,其实句子Source中的单词对生成某个目标单词yi来说影响力是不相同的,即Encoder对于每个source中的单词加权不同,即体现出模型的注意力。
Encoder的加权是由Encoder和Decoder所用到的hi,si(每个单词对应的语义编码,解码)的综合函数完成的。
Bahdanau Attention结构
Luong Attention结构
Attention机制的本质思想
可以将Query看作为yi之前的 y1,y2,…,yi−1, 通过与Source中不同的Key的相似度与Value相乘, Key与Value即上述公式中的hi.
上文所举的Encoder-Decoder框架中,因为在计算Attention的过程中,Source中的Key和Value合二为一成,指向的是同一个东西,也即输入句子中每个单词对应的语义编码hi,
Transformer
主体结构:模型分为编码器和解码器两个部分。
输入层/输出层
编码器和解码器的输入就是利用学习好的embeddings将tokens(一般应该是词或者字符)转化为d维向量。对解码器来说,利用线性变换以及softmax函数将解码的输出转化为一个预测下一个token的概率。
编码器由6个相同的层堆叠在一起,每一层又有两个支层。第一个支层是一个多头的自注意机制,第二个支层是一个简单的全连接前馈网络。在两个支层外面都添加了一个residual的连接,然后进行了layer nomalization的操作。模型所有的支层以及embedding层的输出维度都是dmodel。
解码器也是堆叠了六个相同的层。不过每层除了编码器中那两个支层,解码器还加入了第三个支层,如图中所示同样也用了residual以及layer normalization。具体的细节后面再讲。
位置向量
由于模型没有任何循环或者卷积,为了使用序列的顺序信息,需要将tokens的相对以及绝对位置信息注入到模型中去。论文在输入embeddings的基础上加了一个“位置编码”。位置编码和embeddings由同样的维度都是dmodel
所以两者可以直接相加。有很多位置编码的选择,既有学习到的也有固定不变的。
Bert结构
token Embeddings表示的是词向量,第一个单词是CLS标志,可以用于之后的分类任务,对于非分类任务,可以忽略词向量;Segment Embeddings用来区别两种句子,因为预训练不只做语言模型还要做以两个句子为输入的分类任务;Position Embeddings是通过模型学习得到的。
BERT模型预训练任务
BERT模型使用两个新的无监督预测任务对BERT进行预训练,分别是Masked LM和Next
Sentence Prediction:
MLM:
为了训练深度双向Transformer表示,采用了一种简单的方法:随机掩盖部分输入词,然后对那些被掩盖的词进行预测,此方法被称为“Masked LM”(MLM)。预训练的目标是构建语言模型,BERT模型采用的是bidirectional Transformer。那么为什么采用“bidirectional”的方式呢?因为在预训练语言模型来处理下游任务时,我们需要的不仅仅是某个词左侧的语言信息,还需要右侧的语言信息。
在训练的过程中,随机地掩盖每个序列中15%的token,并不是像word2vec中的cbow那样去对每一个词都进行预测。MLM从输入中随机地掩盖一些词,其目标是基于其上下文来预测被掩盖单词的原始词汇。与从左到右的语言模型预训练不同,MLM目标允许表示融合左右两侧的上下文,这使得可以预训练深度双向Transformer。
Transformer编码器不知道它将被要求预测哪些单词,或者哪些已经被随机单词替换,因此它必须对每个输入词保持分布式的上下文表示。此外,由于随机替换在所有词中只发生1.5%,所以并不会影响模型对于语言的理解。
Next Sentence Prediction
很多句子级别的任务如自动问答(QA)和自然语言推理(NLI)都需要理解两个句子之间的关系,譬如上述Masked LM任务中,经过第一步的处理,15%的词汇被遮盖。那么在这一任务中我们需要随机将数据划分为等大小的两部分,一部分数据中的两个语句对是上下文连续的,另一部分数据中的两个语句对是上下文不连续的。然后让Transformer模型来识别这些语句对中,哪些语句对是连续的,哪些对子不连续。
预训练过程
4. BERT、ELMo 与GPT模型比较
3个模型比较如下:
5. BERT 应用到的11个NLP 项目
这篇关于Bert算法的前因后果的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!