基于gensim的Wiki百科中文word2vec训练

2024-05-07 14:48

本文主要是介绍基于gensim的Wiki百科中文word2vec训练,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Word2Vec简介

Word2Vec是词(Word)的一种表示方式。不同于one-hot vector,word2vec可以通过计算各个词之间的距离,来表示词与词之间的相似度。word2vec提取了更多的特征,它使得具有相同上下文语义的词尽可能离得近一些,而不太相关的词尽可能离得较远一些。例如,【腾讯】和【网易】两个词向量将会离得很近,同理【宝马】和【保时捷】两个词向量将会离得很近。而【腾讯】和【宝马】/【保时捷】,【网易】和【宝马】/【保时捷】将会离得较远一些。因为【腾讯】和【网易】都同属于互联网类目,而【宝马】和【保时捷】都同属于汽车类目。人以类聚,物以群分嘛!互联网圈子中谈的毕竟都是互联网相关的话题,而汽车圈子中谈论的都是和汽车相关的话题。

我们怎么得到一个词的word2vec呢?下面我们将介绍如何使用python gensim得到我们想要的词向量。总的来说,包括以下几个步骤:

  • wiki中文数据预处理

  • 文本数据分词

  • gensim word2vec训练

wiki中文数据预处理

首先,下载wiki中文数据:zhwiki-latest-pages-articles.xml.bz2。因为zhwiki数据中包含很多繁体字,所以我们想获得简体语料库,接下来需要做以下两件事:

  • 使用gensim模块中的WikiCorpus从bz2中获取原始文本数据

  • 使用OpenCC将繁体字转换为简体字

WikiCorpus获取原始文本数据

数据处理的python代码如下:

from __future__ import print_function
from gensim.corpora import WikiCorpus
import jieba
import codecs
import os
import six
from gensim.models import Word2Vec
from gensim.models.word2vec import LineSentence
import multiprocessingclass Config:data_path = 'xxx/zhwiki'zhwiki_bz2 = 'zhwiki-latest-pages-articles.xml.bz2'zhwiki_raw = 'zhwiki_raw.txt'zhwiki_raw_t2s = 'zhwiki_raw_t2s.txt'zhwiki_seg_t2s = 'zhwiki_seg.txt'embedded_model_t2s = 'embedding_model_t2s/zhwiki_embedding_t2s.model'embedded_vector_t2s = 'embedding_model_t2s/vector_t2s'def dataprocess(_config):i = 0if six.PY3:output = open(os.path.join(_config.data_path, _config.zhwiki_raw), 'w')output = codecs.open(os.path.join(_config.data_path, _config.zhwiki_raw), 'w')wiki = WikiCorpus(os.path.join(_config.data_path, _config.zhwiki_bz2), lemmatize=False, dictionary={})for text in wiki.get_texts():if six.PY3:output.write(b' '.join(text).decode('utf-8', 'ignore') + '\n')else:output.write(' '.join(text) + '\n')i += 1if i % 10000 == 0:print('Saved ' + str(i) + ' articles')output.close()print('Finished Saved ' + str(i) + ' articles')config = Config()
dataprocess(config)

使用OpenCC将繁体字转换为简体字

这里,需要预先安装OpenCC,关于OpenCC在linux环境中的安装方法,请参考这篇文章。仅仅需要两行linux命令就可以完成繁体字转换为简体字的任务,而且速度很快。

$ cd /xxx/zhwiki/
time opencc -i zhwiki_raw.txt -o zhwiki_t2s.txt -c zht2zhs.ini
real    0m33.104s
user    0m26.130s
sys    0m0.945s

文本数据分词

对于分词这个任务,我们直接使用了python的jieba分词模块。你也可以使用哈工大的ltp或者斯坦福的nltk python接口进行分词,准确率及权威度挺高的。不过这两个安装的时候会花费很长时间,尤其是斯坦福的。关于jieba的分词处理代码,参考如下:

def is_alpha(tok):try:return tok.encode('ascii').isalpha()except UnicodeEncodeError:return Falsedef zhwiki_segment(_config, remove_alpha=True):i = 0if six.PY3:output = open(os.path.join(_config.data_path, _config.zhwiki_seg_t2s), 'w', encoding='utf-8')output = codecs.open(os.path.join(_config.data_path, _config.zhwiki_seg_t2s), 'w', encoding='utf-8')print('Start...')with codecs.open(os.path.join(_config.data_path, _config.zhwiki_raw_t2s), 'r', encoding='utf-8') as raw_input:for line in raw_input.readlines():line = line.strip()i += 1print('line ' + str(i))text = line.split()if True:text = [w for w in text if not is_alpha(w)]word_cut_seed = [jieba.cut(t) for t in text]tmp = ''for sent in word_cut_seed:for tok in sent:tmp += tok + ' 'tmp = tmp.strip()if tmp:output.write(tmp + '\n')output.close()zhwiki_segment(config)

gensim word2vec训练

python的gensim模块提供了word2vec训练,为我们模型的训练提供了很大的方便。关于gensim的使用方法,可以参考基于Gensim的Word2Vec实践。
本次训练的词向量大小size为50,训练窗口为5,最小词频为5,并使用了多线程,具体代码如下:

def word2vec(_config, saved=False):print('Start...')model = Word2Vec(LineSentence(os.path.join(_config.data_path, _config.zhwiki_seg_t2s)),size=50, window=5, min_count=5, workers=multiprocessing.cpu_count())if saved:model.save(os.path.join(_config.data_path, _config.embedded_model_t2s))model.save_word2vec_format(os.path.join(_config.data_path, _config.embedded_vector_t2s), binary=False)print("Finished!")return modeldef wordsimilarity(word, model):semi = ''try:semi = model.most_similar(word, topn=10)except KeyError:print('The word not in vocabulary!')for term in semi:print('%s,%s' % (term[0],term[1]))model = word2vec(config, saved=True)

word2vec训练已经完成,我们得到了想要的模型以及词向量,并保存到本地。下面我们分别查看同【宝马】和【腾讯】最相近的前10个词语。可以发现:和【宝马】相近的词大都属于汽车行业,而且是汽车品牌;和【腾讯】相近的词大都属于互联网行业。

>>> wordsimilarity(word=u'宝马', model=model)
保时捷,0.92567974329
固特异,0.888278841972
劳斯莱斯,0.884045600891
奥迪,0.881808757782
马自达,0.881799697876
亚菲特,0.880708634853
欧宝,0.877104878426
雪铁龙,0.876984715462
玛莎拉蒂,0.868475496769
桑塔纳,0.865387916565>>> wordsimilarity(word=u'腾讯', model=model)
网易,0.880213916302
优酷,0.873666107655
腾讯网,0.87026232481
广州日报,0.859486758709
微信,0.835543811321
天涯社区,0.834927380085
李彦宏,0.832848489285
土豆网,0.831390202045
团购,0.829696238041
搜狐网,0.825544642448

这篇关于基于gensim的Wiki百科中文word2vec训练的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/967660

相关文章

get请求中url传参中文乱码问题--集锦

================================================= 分享一个好友的人工智能教程。零基础!通俗易懂!风趣幽默!大家可以看看是否对自己有帮助!点击查看教程 =================================================      在项目中经常会遇到中文传参数,在后台接收到乱码问题。那么在遇到这种情况下我们应该怎么

Pytorch学习笔记_4_训练一个分类器

关于数据 一般来说,对于图像、文本、音频或视频数据,可以使用标准的Python包来将这些数据加载为numpy array,之后可以将这些array转换为torch.*Tensor 对于图像,Pillow、OpenCV包音频,scipy、librosa包文本,可以使用原始Python和Cython加载,或NLKT和SpaCy 特别的,对于视觉任务,有一个包torchvision,其中包含了处理

dom4j处理xml在linux环境下中文乱码

最近在搞一个webservice 的soap接口数据同步,接口提供方就是个鸟人,两个接口来来回回写了2个月才调通,我也真是服了 ———**——– 好了吐槽到此结束,下面说说乱码的问题 dom4j 解析xml 就是一个把字符串、文件、输入流转换成文本(Document )再处理的过程;下面附上代码 InputStream in = new ByteArrayInputStream(fyxx.

一文读懂deepSpeed:深度学习训练的并行化

引言 在深度学习领域,模型训练的过程不仅资源密集,而且技术复杂。近年来,随着模型规模和数据量的不断增长,深度学习训练面临着越来越多的挑战。这些挑战主要体现在计算资源的需求、训练效率、模型复杂度以及内存管理等多个方面。而DeepSpeed库的出现,正是为了解决这些问题,它提供了一整套优化工具和策略,极大地提升了深度学习训练的效率和可扩展性。   目录 引言 1. DeepSpeed简介

easyui组件中文乱码、easyui-lang-zh_CN.js乱码、前端页面框架乱码

easyui组件乱码easyui-lang-zh_CN.js乱码前端页面框架乱码 又是一个乱码问题,easyui框架的下一页、上一页、确定、取消等等这种组件中的中文乱码,开始完全无头绪,因为Tomcat、MySQL、过滤器、JSP页面编码都设置成UTF-8的,上次我解决过一次类似的乱码问题,也写了CSDN博客,那个总结了一下乱码处理问题,所以这次我首先采取下列措施: 一·、 将easyui-l

JSP通过include标签或frame标签等引入HTML文件页面出现中文乱码终极解决方案include标签和frame标签

JSP通过include标签或frame标签等引入HTML文件页面出现中文乱码终极解决方案include标签和frame标签 JSP通过include标签或frame标签等引入HTML文件页面出现中文乱码终极解决方案include标签和frame标签 JSP通过include标签或frame标签等引入HTML文件页面出现中文乱码终极解决方案include标签和frame标签 特

CentOS 中文文件名变成?

首先locale查看系统当前的语言环境 LC_ALL是一个宏,该值是可以不设置的,感觉问题应该处在LC_CTYPE上。 根据链接上的回答,LC_CTYPE="UTF-8"是一个无效的locale name,按照Gunnar Hjalmarsson所说,应把环境变量中的LC_CTYPE="UTF-8"这一行去掉,(因LANG已经设置了,可以不用设置?)再relogin。 但我知道这个locale

Eclipse官方中文语言包汉化

可以在http://www.eclipse.org/babel/downloads.php中找到对应版本的中文语言包 例如Eclipse Java Oxygen(Release 4.7.0)对应的中文语言包下载地址为: http://www.eclipse.org/downloads/download.php?file=/technology/babel/babel_language_

jiebaNET中文分词器

最近我接手了一个有趣的需求,需要对用户评价进行分词,进行词频统计和情绪分析,并且根据词频权重制成词云图以供后台数据统计,于是我便引入了jieba分词器,但是我发现网上关于jiebaNET相关文档实在太少了,甚至连配置文件都很难搞清楚,所以我来大家介绍一下jiebaNET。 jiebaNET分词器介绍: ieba.NET分词器是一款基于.NET平台的中文分词工具,它借鉴了jieba分词器的算

中文命名在代码开发中的专业应用:深入探讨与实践指南

在代码开发中,命名是程序员表达思想、组织代码的重要手段。一个好的命名可以提高代码的可读性、理解性和维护性,而一个差的命名则会使代码变得难以理解和维护。 近年来,随着中国软件产业的快速发展,中文编程在国内得到了越来越广泛的应用。使用中文命名可以使代码更加贴近母语使用者,从而提高代码的可读性和理解性。此外,中文命名还可以增强文化自信,并支持软件产品的本地化。 本文将从以下几个方面深入探讨中文命名在