Python 文本挖掘：jieba中文分词和词性标注

本文主要是介绍Python 文本挖掘：jieba中文分词和词性标注，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

转自：http://rzcoding.blog.163.com/blog/static/222281017201310155331241/

jieba 分词：做最好的Python 中文分词组件。

这是结巴分词的目标，我相信它也做到了。操作简单，速度快，精度不错。而且是Python 的库，这样就不用调用中科院分词ICTCLAS了。
妈妈再也不用担心我不会分词啦。

jieba 的主页有详细的使用介绍，这里讲一些主页中没提到的。
结巴分词的主要特点是分词之后会形成一个可循环的对象。具体如下：

#! /usr/bin/env python2.7 #coding=utf-8import jiebastring = '其实大家买手机就是看个心情，没必要比来比去的。' seg = jieba.cut(string) print seg #这是一个可循环的对象

for i in seg: print i,

>> <generator object cut at 0x00DDEC38>

>> Building Trie..., from E:\Python27\lib\site-packages\jieba\dict.txt loading model from cache c:\docume~1\admini~1\locals~1\temp\jieba.cache loading model cost 4.32799983025 seconds. Trie has been built succesfully. 其实大家买手机就是看个心情，没必要比来比去的。

要把分词的结果展示出来，就需要循环读取该对象的每一个数据（分词后的词），然后存储在数组中。具体如下：

#! /usr/bin/env python2.7
#coding=utf-8import jiebastring = '其实大家买手机就是看个心情，没必要比来比去的。'
seg = jieba.cut(string)l = []
for i in seg:
    l.append(i)
print l

>> Building Trie..., from E:\Python27\lib\site-packages\jieba\dict.txt
loading model from cache c:\docume~1\admini~1\locals~1\temp\jieba.cache
loading model cost  3.67199993134 seconds.
Trie has been built succesfully.
[u'\u5176\u5b9e', u'\u5927\u5bb6', u'\u4e70\u624b\u673a', u'\u5c31\u662f', u'\u770b\u4e2a', u'\u5fc3\u60c5', u'\uff0c', u'\u6ca1', u'\u5fc5\u8981', u'\u6bd4\u6765\u6bd4\u53bb', u'\u7684', u'\u3002']

这些u'\u5176\u5b9e'、u'\u5927\u5bb6'等等都是词语的unicode 编码，在print 的时候，print 会自动处理unicode 编码，然后转成我们可以看懂的字，里面的详细原理我也不清楚。。。
p.s. 简单解释一下Trie，jieba 分词前需要建立一个Trie 树字典来帮助其分词。不过Trie 的具体原理我也不太懂。。。
词性标注也一样，只是词性标注多了一个词性。我选择把词语和它的词性作为一个元组加入数组中。具体如下：

#! /usr/bin/env python2.7
#coding=utf-8import jieba
import jieba.posseg #需要另外加载一个词性标注模块string = '其实大家买手机就是看个心情，没必要比来比去的。'
seg = jieba.posseg.cut(string)l = []
for i in seg:
    l.append((i.word, i.flag))
print l

>> Building Trie..., from E:\Python27\lib\site-packages\jieba\dict.txt
loading model from cache c:\docume~1\admini~1\locals~1\temp\jieba.cache
loading model cost  2.71900010109 seconds.
Trie has been built succesfully.
[(u'\u5176\u5b9e', 'd'), (u'\u5927\u5bb6', 'n'), (u'\u4e70\u624b\u673a', 'n'), (u'\u5c31\u662f', 'd'), (u'\u770b', 'v'), (u'\u4e2a', 'q'), (u'\u5fc3\u60c5', 'n'), (u'\uff0c', 'x'), (u'\u6ca1', 'v'), (u'\u5fc5\u8981', 'd'), (u'\u6bd4\u6765\u6bd4\u53bb', 'l'), (u'\u7684', 'uj'), (u'\u3002', 'x')]

jieba 的词性标注方式和ICTCLAS的标注方式一样。具体在这篇文章中有介绍：ICTCLAS 汉语词性标注集
比如"n"是名词，“a”是形容词，“v”是动词，“d”是副词，“x”是非语素词等等。

这篇关于Python 文本挖掘：jieba中文分词和词性标注的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

Python 文本挖掘：jieba中文分词和词性标注

相关文章

浅析python如何去掉字符串中最后一个字符

python版本切换工具pyenv的安装及用法

Python自动化提取多个Word文档的文本

Python中Request的安装以及简单的使用方法图文教程

Python容器转换与共有函数举例详解

使用Python将PDF表格自动提取并写入Word文档表格

使用Python实现局域网远程监控电脑屏幕的方法

Python列表的创建与删除的操作指南

Python使用Matplotlib和Seaborn绘制常用图表的技巧

Python数据验证神器Pydantic库的使用和实践中的避坑指南