本文主要是介绍word2vec 自己训练中文语料,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
(1) 准备文本
可以用爬虫爬,也可以去下载,必须是全文本。
(2)对数据进行分词处理
因为英文但此只见是空格所以不需要分词,二中文需要分词,
中文分词工具还是很多的,我自己常用的:
- 中科院NLPIR
- 哈工大LTP
- 结巴分词
注意:分词后保存的文件将会作为word2vec的输入文件进行训练
(3)训练与实验
python 需要先安装gensim,参考http://blog.csdn.net/u013378306/article/details/54629643
#!/usr/bin/env python
# -*- coding: utf-8 -*-"""
功能:测试gensim使用&#
这篇关于word2vec 自己训练中文语料的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!