unigram专题

自然语言处理(NLP)-子词模型（Subword Models）：BPE（Byte Pair Encoding）、WordPiece、ULM（Unigram Language Model）

在NLP任务中，神经网络模型的训练和预测都需要借助词表来对句子进行表示。传统构造词表的方法，是先对各个句子进行分词，然后再统计并选出频数最高的前N个词组成词表。通常训练集中包含了大量的词汇，以英语为例，总的单词数量在17万到100万左右。出于计算效率的考虑，通常N的选取无法包含训练集中的所有词。因而，这种方法构造的词表存在着如下的问题：实际应用中，模型预测的词汇是开放的，对于未在词表中出现的词

tf.nn.fixed_unigram_candidate_sampler解释

https://www.tensorflow.org/api_docs/python/tf/random/fixed_unigram_candidate_sampler 上面链接是官网解释，看了一会儿感觉没看懂跑了几个列子有点懂了。本文结合https://www.w3cschool.cn/tensorflow_python/tf_nn_fixed_unigram_candidate_

随机分词与tokenizer(BPE-＞BBPE-＞Wordpiece-＞Unigram-＞sentencepiece-＞bytepiece)

0 tokenizer综述根据不同的切分粒度可以把tokenizer分为: 基于词的切分，基于字的切分和基于subword的切分。基于subword的切分是目前的主流切分方式。subword的切分包括: BPE(/BBPE), WordPiece 和 Unigram三种分词模型。其中WordPiece可以认为是一种特殊的BPE。完整的分词流程包括：文本归一化，预切分，基于分词模型的切分，后