分词工具结巴个人词典构造

本文主要是介绍分词工具结巴个人词典构造，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

结巴

JIEBA项目github地址

训练数据

载入词典

开发者可以指定自己自定义的词典，以便包含 jieba 词库里没有的词。虽然 jieba 有新词识别能力，但是自行添加新词可以保证更高的正确率
用法： jieba.load_userdict(file_name) # file_name 为文件类对象或自定义词典的路径
词典格式和 dict.txt 一样，一个词占一行；每一行分三部分：词语、词频（可省略）、词性（可省略），用空格隔开，顺序不可颠倒。file_name 若为路径或二进制方式打开的文件，则文件必须为 UTF-8 编码。
词频省略时使用自动计算的能保证分出该词的词频。
例如：

创新办 3 i
云计算 5
凱特琳 nz
台中

调整词典

使用 add_word(word, freq=None, tag=None) 和 del_word(word) 可在程序中动态修改词典。

使用 suggest_freq(segment, tune=True) 可调节单个词语的词频，使其能（或不能）被分出来。

注意：自动计算的词频在使用 HMM 新词发现功能时可能无效。

代码示例：

print(‘/’.join(jieba.cut(‘如果放到post中将出错。’, HMM=False)))
如果/放到/post/中将/出错/。
jieba.suggest_freq((‘中’, ‘将’), True)
494
print(‘/’.join(jieba.cut(‘如果放到post中将出错。’, HMM=False)))
如果/放到/post/中/将/出错/。
print(‘/’.join(jieba.cut(‘「台中」正确应该不会被切开’, HMM=False)))
「/台/中/」/正确/应该/不会/被/切开
jieba.suggest_freq(‘台中’, True)
69
print(‘/’.join(jieba.cut(‘「台中」正确应该不会被切开’, HMM=False)))
「/台中/」/正确/应该/不会/被/切开
“通过用户自定义词典来增强歧义纠错能力” — https://github.com/fxsjy/jieba/issues/14

通过用户自定义词典来增强歧义纠错能力链接精华内容

1 自定义词典的词频设置问题

RE:"大连美容美发学校中君意是你值得信赖的选择" 这句话首先会按照概率连乘最大路径来切割，因为单字有一定概率，而“中君意是”这四个字中不含词典中有的词，所以会被切割成单字：即：大连/ 美容美发/ 学校/ 中/ 君/ 意/ 是/ 你/ 值得/ 信赖/ 的/ 选择/然后我们认为“中/ 君/ 意/ 是/ 你/ ”这几个连续的单字 中可能有词典中没有的新词，所以再用finalseg来切一遍“中君意是你 ”，finalseg是通过HMM模型来做的，简单来说就是给单字大上B,M,E,S四种标签以使得概率最大。很遗憾，由于训练数据的问题，finalseg最终得到的标签是：中君 意是 你
B E B E S即认为P(B)_P(中|B)_P(E|B)_P(君|E)_P(B|E)_P(意|B)_P(E|B)_P(是|E)_P(S|E)*P(你|S) 是所有可能的标签组合中概率最大的。B: 开头
E:结尾
M:中间
S: 独立成词的单字解决方案是在词典中补充“君意”这个词，并给予一个词频，不用太大，比如3即可。==user.dict===君意 3==test.py==

注意：对于新词不用太大，比如3即可。

当然这个词频是针对词典没有的词，对于下面的例子，设置了20000的词频，是因为

频率越高，成词的概率就越大。比如”江州市长江大桥”，既可以是”江州/市长/江大桥“，也可以是”江州/市/长江大桥“。
假设要保证第一种划分的话，我们需要保证P(江州)_P(市长)_P(江大桥）> P(江州)_P(市)_P(长江大桥)因为”长江大桥“、”市长“这些词的频率都很高，为了纠正，才把”江大桥“的词频设置的很高。而对于一般的词典中没有的新词，大多数情况下不会处于有歧义的语境中，故词频也就2,3,4就够了。

比如”江州市长江大桥”，既可以是”江州/市长/江大桥“，也可以是”江州/市/长江大桥“。
假设要保证第一种划分的话，我们需要保证P(江州)_P(市长)_P(江大桥）> P(江州)_P(市)_P(长江大桥)

'江州/ 市/ 长江大桥/ 参加/ 了/ 长江大桥/ 的/ 通车/ 仪式'目前这个方面的确还比较弱。通过在自定义词典里提高“江大桥”的词频可以做到，但是设置多少还没有公式，词频越高则成词概率越大，不宜过大。我是这样设置的：==user.dict==江大桥 20000===test1.py======#encoding=utf-8
import sys
sys.path.append("../")
import jieba
jieba.load_userdict("user.dict")
print ", ".join(jieba.cut("江州市长江大桥参加了长江大桥的通车仪式"))==结果===
江州, 市长, 江大桥, 参加, 了, 长江大桥, 的, 通车, 仪式

2要注意看来dict.txt里面的词频只是为解决歧义而设置的，词典中的词频数值跟计算tf-idf时没有没有必然联系

问题一：新词
我想问，我在使用自定义词典的时候，分词“藏宝阁太贵”，我成功把“藏宝阁”分成一起了，但是“太贵”却不能分成“太”和“贵”。
我尝试过将jieba的字典dict.txt中的“太贵”直接删掉，也尝试过加入语句jieba.suggest_freq(('太','贵'),True)，也都没有用。
请问，怎么才能成功把“太贵”分开个人认为有两种方式：1）你可以在字典dict.txt中先找出“太贵”的词频，然后在后面加上“太” ，“贵”，但是词频要比“太贵”高；
2）添加自定义字典，字典里写上“太” ，“贵”，分别加词频，词频设置跟前面的方法一样问题二：歧义（默认词典有的，自定义词典但还是有问题，怎么办）您好，最近使用您的工具发现 “常用的数据挖掘方法包括向量机等”这句话被分成了
常用 \ 的 \ 数据挖掘 \ 方法 \ 包括 \ 向量 \ 机 \ 等
于是自己加了词典，写的是 向量机 5 n
结果分词变成了
常用 \ 的 \ 数据 \ 挖掘 \ 方法 \ 包括 \ 向 \ 量机 \ 等
数据挖掘这个词也分错了，另外向量机也没分出来我后来发现问题是jieba在分词时只能引用一个词典，我导入了自己的词典后jieba分词就没有使用原来的词典，之所以还能分词是因为HMM处在开启状态。
我后来直接把发现的新词加入到原词典里就没问题了。
另外我发现如果不写词频的话会报ValueError: invalid dictionary entry这样一个bug，似乎是字典格式要求必须有词频才可以，我试了一下，可以没有词性但必须要有词频才能不报错。我想把“二手手机” 分为“二手” 和 “手机”，自定义词典后， 我用load_userdict 没有任何作用，但是用set_dictionary 就能分开了。。。

词性标注

jieba.posseg.POSTokenizer(tokenizer=None) 新建自定义分词器，tokenizer 参数可指定内部使用的 jieba.Tokenizer 分词器。jieba.posseg.dt 为默认词性标注分词器。
标注句子分词后每个词的词性，采用和 ictclas 兼容的标记法。
用法示例