Mac版R语言（六）文本挖掘（用户词库的导入、批量导入搜狗词库）

本文主要是介绍Mac版R语言（六）文本挖掘（用户词库的导入、批量导入搜狗词库），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

R语言问题讨论交流，欢迎关注我的新浪微博：Jenny爱学习

文本挖掘应用的博客将分4个部分分别讨论完成，本篇将完成part 1的详细project：

用户字典批量安装，自定义分词词库，自建分词packages的安装
jiebaR分词的使用
词云的绘制（wordcloud2详细使用见：Mac版R语言（四）使用wordcloud2画词云点击打开链接）
k-means聚类

运行环境Platform: x86_64-apple-darwin13.4.0 (64-bit)，MacOS Sierra 10.12.3，R3.3.2 (2016-10-31)，涉及到的所有packages均更新下载于2017-6月。

所有代码均已全部运行，结果附图，有任何问题欢迎留言讨论。

1. 分词常用packages

1.1 R提供的文本挖掘packages：

tm：英文分词工具
jiebaR：中文分词工具,本身是C++写的，具有极高的运算处理速度
Rwordseg：中文分词工具，Mac版依赖旧版本的Java，较难安装，版本更新慢，不推荐使用
chinese.misc：中文分词工具，内核基于Rwordseg
rmmseg4j：
snowball:英文词干化

1.2 其他常用汉语分词系统：

中科院NLPIR汉语分词系统 :零代码在线版点击打开链接
微软word2vec：基于深度学习的文本挖掘系统

2. 用户词典的建立

2.1 词库下载

jiebaR作为目前R平台上最好的中文分词工具，虽然其自带词库和停用词库，但是对于不同行业的研究者来说，自带词库并不能满足所有的研究需求。因此，用户需要自己安装行业内的专用词库，具体词库可以从搜狗词库上下载安装：点击打开链接

2. 2 单个词典导入

2.2.1 零代码转换分词词库

如果只需要导入单个词典，推荐使用在线版本的词库转换工具，同样是来自jiebaR作者Qin Wenfeng，点击链接进行在线转换：

点击打开链接

2.2.2 代码导入词库

cidian包的下载安装方法见下方：2.3 批量词库导入。

新建Rproject工程文件，将project工程文件建立在搜狗词典库同文件夹中。

结果如下图：

在得到的文件中，将转化后的后缀名为.dict搜狗词库名称改为user.dict.utf8，并替换原文件，就将搜狗词典转换为默认的用户词典了。

2.3 批量词库导入

需要进行分词的文档可能综合了许多学科，因此仅仅使用单个词库并不能分出许多不同行业的专用词，这时就需要批量导入多学科词库，对文档进行分词。

批量导入搜狗词库需要cidian这个package，在R上查看cidian的文档信息，cidian这个包同样来自jiebaR的作者Qin Wenfeng。

11、13、14行的注释：在载入cidian的时候还需要载入Rcpp和RcppProgress、stringi、pbapply、jiebaR这五个程序包。

由于词典发布在github上，因此Mac环境下需要借助devtools这个packages安装下载（后面有详细介绍），windows环境需要安装Rtools开发工具才能安装cidian包。

安装jiebaR中批量导入词库的package

打开R，根据文档，执行以下代码：

结果截图

整个代码运行的过程中，要确保每个文件的路径正确，否则可能会生成一些空数据集，

代码运行后，词库所在的文件夹中会生成对应.scel词库的.txt.文件格式，如下图：

将所有生成的.txt文件合并为一个文件

这时得到一个全部.txt格式词库的文件，R中environment显示，整理后的词库约有30万条专业词汇，21.6M：

使用unique()函数去掉重复词语，还剩28万条词：

最后，将去重的词库写出：

write.table(dict1,file = "use.dict.utf8",quote = F,row.names = F,col.names = F,fileEncoding = "UTF-8")

在Rproject文件夹中得到如下结果：

按照2.2.2 中介绍的替换词库的方法，将生成的词库替换至jiebaR的默认用户词库即可。

这篇关于Mac版R语言（六）文本挖掘（用户词库的导入、批量导入搜狗词库）的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

原文地址:https://blog.csdn.net/Nicolelovesmath/article/details/73835499
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.chinasem.cn/article/402777。如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈，一经查实，立即删除！我们的邮箱：23002807@qq.com