本文主要是介绍BPE分词方法总结,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
BPE方法可以认为是对一个1到n的ngram分词方式使用剪枝法(将有先后依赖,且词频重合度较高的词合并)
比如,输入的句子中,abc:50,abcd:49,那么就可以在49/50>Threshold时,直接删除abc这个词。这就是剪枝。可以用来减少词集合
参考:https://leimao.github.io/blog/Byte-Pair-Encoding/
这篇关于BPE分词方法总结的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!