Gensim-维基百科中文语料LDA,LSI实验记录

2024-03-14 15:40

本文主要是介绍Gensim-维基百科中文语料LDA,LSI实验记录,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

介绍

本文描述了获取和处理维基百科中文语料过程,以及使用Gensim对语料进行主题建模处理的例子。

准备语料库

  1. 首先,从https://dumps.wikimedia.org/zhwiki/latest/下载所有维基百科文章语料库(需要文件zhwiki-latest-pages-articles.xml.bz2或zhwiki-YYYYMMDD-pages-articles.xml)。这个文件的大小约为1GB多,包含中文维基百科的所有文章(压缩版本)。

  2. 将文章转换为纯文本,并将结果存储为稀疏TF-IDF向量。 在Python中,这是很容易做的,我们甚至不需要将整个存档解压缩到磁盘。 在gensim中包含一个脚本,只需执行以下操作:

python -m gensim.scripts.make_wiki zhwiki-latest-pages-articles.xml.bz2 zhwiki

在bash中运行下面命令可查看make_wiki脚本的用法:

python -m gensim.scripts.make_wiki

然后会生成下面六个文件:
这里写图片描述

Latent Semantic Analysis实验:

实验用到前面生成的二个文件:zhwiki_wordids.txt和zhwiki_tfidf.mm。
TrainLSI()方法训练模型,然后保存。
LSIShow()方法显示结果。

实验代码

def TrainLSI():# load id->word mapping (the dictionary)zhwiki_id2word = corpora.Dictionary.load_from_text("zhwiki_wordids.txt")#  load corpus iterator,即文本库zhwiki_corpus = corpora.MmCorpus("zhwiki_tfidf.mm")zhiwiki_lsi_model = models.lsimodel.LsiModel(corpus=zhwiki_corpus, id2word=zhwiki_id2word, num_topics=400)zhiwiki_lsi_model.save('zhiwiki_lsi_model.model')def LSIShow():zhiwiki_lsi_model = models.lsimodel.LsiModel.load('zhiwiki_lsi_model.model')pp.pprint(zhiwiki_lsi_model.print_topics(5))

结果:显示前五个主题的词分布:

[(0,'0.837*"小行星" + 0.271*"林肯近地小行星研究小组" + 0.271*"索科罗" + 0.234*"基特峰" + ''0.232*"太空监视" + 0.096*"萊蒙山巡天" + 0.096*"莱蒙山" + 0.087*"近地小行星追踪" + 0.081*"帕洛马山" ''+ 0.053*"卡特林那巡天系统"'),(1,'0.796*"zh" + 0.280*"jpg" + 0.270*"hans" + 0.254*"file" + 0.251*"hk" + ''0.166*"tw" + 0.102*"hant" + 0.082*"cn" + 0.072*"px" + 0.038*"image"'),(2,'0.665*"jpg" + 0.601*"file" + -0.359*"zh" + -0.123*"hans" + -0.099*"hk" + ''0.087*"image" + -0.072*"tw" + 0.047*"px" + -0.045*"hant" + 0.042*"公里"'),(3,'0.972*"px" + -0.076*"jpg" + -0.064*"file" + 0.062*"公里" + -0.057*"zh" + ''0.042*"isbn" + 0.037*"平成" + 0.031*"align" + 0.028*"飾演" + 0.027*"民国"'),(4,'0.920*"飾演" + 0.196*"mbc" + 0.194*"kbs" + 0.189*"sbs" + 0.050*"tvn" + ''-0.048*"px" + 0.048*"isbn" + 0.043*"電視劇" + 0.040*"電影" + 0.034*"演出作品"')]Process finished with exit code 0

Latent Dirichlet Allocation实验:

实验用到前面生成的二个文件:zhwiki_wordids.txt和zhwiki_tfidf.mm。
TrainLda()方法训练模型,然后保存。
LdaShow()方法显示结果。

代码:

def TrainLda():zhwiki_id2word = corpora.Dictionary.load_from_text("zhwiki_wordids.txt")zhwiki_corpus = corpora.MmCorpus("zhwiki_tfidf.mm")zhwiki_lda = models.ldamodel.LdaModel(corpus= zhwiki_corpus, id2word= zhwiki_id2word, num_topics=100)zhwiki_lda.save("zhwiki_lda.model")def LdaShow():zhwiki_ldamodel = models.ldamodel.LdaModel.load('zhwiki_lda.model')pp.pprint(zhwiki_ldamodel.print_topics(5))return zhwiki_ldamodel# zhwiki_ldamodel.print_topic(20)

结果:显示前五个主题的词分布:

[(59,'0.096*"每天" + 0.026*"主要演員" + 0.019*"原唱" + 0.012*"level" + 0.011*"夾層" + ''0.011*"note" + 0.009*"total" + 0.009*"smart" + 0.008*"翻譯" + 0.007*"許廷鏗"'),(0,'0.046*"ss" + 0.036*"funet" + 0.025*"hesperioidea" + 0.019*"papiionoidea" + ''0.017*"fruhstorfer" + 0.016*"指名亞種" + 0.014*"tolweb" + 0.013*"nymphalidae" + ''0.012*"分佈於新熱帶界" + 0.011*"ea"'),(99,'0.061*"link" + 0.026*"另见" + 0.023*"制作" + 0.015*"湖南卫视" + 0.015*"巴黎地鐵link" + ''0.015*"巴黎地鐵" + 0.012*"导演" + 0.011*"形式" + 0.011*"規模" + 0.009*"综艺节目"'),(56,'0.172*"jpg" + 0.130*"file" + 0.070*"大字" + 0.037*"image" + 0.026*"区域图" + ''0.017*"svg" + 0.015*"png" + 0.013*"thumb" + 0.010*"公里" + 0.009*"号拍摄"'),(67,'0.041*"正月" + 0.031*"七月" + 0.030*"十一月" + 0.029*"三月" + 0.028*"二月" + ''0.028*"四月" + 0.027*"十月" + 0.026*"五月" + 0.026*"六月" + 0.026*"九月"')]Process finished with exit code 0

使用训练好的LDA模型,对于新来的文档,可以进行主题预测:

代码:

def LDAPredict():lda_model = LdaShow()Dict = corpora.Dictionary.load_from_text("zhwiki_wordids.txt")test_doc = "实验室提供了很多中文语料的下载 全网新闻数据,来自若干新闻站点2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供URL和正文信息。"test_doc = list(jieba.cut(test_doc))# 文档转换成bowdoc_bow = Dict.doc2bow(test_doc)# 得到新文档的主题分布doc_lda = lda_model[doc_bow]pp.pprint(doc_lda)

结果:第一列表示主题,第二列表示属于改主题的概率。

[(5, 0.089595874435511064),
(20, 0.04391304347826077),
(22, 0.084464754997332497),
(23, 0.043913043478260791),
(30, 0.12636274578275353),
(35, 0.044034901794703332),
(38, 0.043913043478260784),
(53, 0.046039943409513104),
(61, 0.26428438827583728),
(77, 0.043913043478260784),
(85, 0.03423113865080693),
(91, 0.043913043478260784),
(93, 0.053594948305714644)]

问题:
刚开始使用zhwiki_wordids.txt训练的时候,遇到错误。
原因是zhwiki_wordids.txt文件的第一行不是id ->map的格式,删掉之后,解决问题。

参考:http://radimrehurek.com/gensim/wiki.html

这篇关于Gensim-维基百科中文语料LDA,LSI实验记录的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/808881

相关文章

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

Node.js学习记录(二)

目录 一、express 1、初识express 2、安装express 3、创建并启动web服务器 4、监听 GET&POST 请求、响应内容给客户端 5、获取URL中携带的查询参数 6、获取URL中动态参数 7、静态资源托管 二、工具nodemon 三、express路由 1、express中路由 2、路由的匹配 3、路由模块化 4、路由模块添加前缀 四、中间件

vscode中文乱码问题,注释,终端,调试乱码一劳永逸版

忘记咋回事突然出现了乱码问题,很多方法都试了,注释乱码解决了,终端又乱码,调试窗口也乱码,最后经过本人不懈努力,终于全部解决了,现在分享给大家我的方法。 乱码的原因是各个地方用的编码格式不统一,所以把他们设成统一的utf8. 1.电脑的编码格式 开始-设置-时间和语言-语言和区域 管理语言设置-更改系统区域设置-勾选Bata版:使用utf8-确定-然后按指示重启 2.vscode

记录每次更新到仓库 —— Git 学习笔记 10

记录每次更新到仓库 文章目录 文件的状态三个区域检查当前文件状态跟踪新文件取消跟踪(un-tracking)文件重新跟踪(re-tracking)文件暂存已修改文件忽略某些文件查看已暂存和未暂存的修改提交更新跳过暂存区删除文件移动文件参考资料 咱们接着很多天以前的 取得Git仓库 这篇文章继续说。 文件的状态 不管是通过哪种方法,现在我们已经有了一个仓库,并从这个仓

STM32(十一):ADC数模转换器实验

AD单通道: 1.RCC开启GPIO和ADC时钟。配置ADCCLK分频器。 2.配置GPIO,把GPIO配置成模拟输入的模式。 3.配置多路开关,把左面通道接入到右面规则组列表里。 4.配置ADC转换器, 包括AD转换器和AD数据寄存器。单次转换,连续转换;扫描、非扫描;有几个通道,触发源是什么,数据对齐是左对齐还是右对齐。 5.ADC_CMD 开启ADC。 void RCC_AD

学习记录:js算法(二十八):删除排序链表中的重复元素、删除排序链表中的重复元素II

文章目录 删除排序链表中的重复元素我的思路解法一:循环解法二:递归 网上思路 删除排序链表中的重复元素 II我的思路网上思路 总结 删除排序链表中的重复元素 给定一个已排序的链表的头 head , 删除所有重复的元素,使每个元素只出现一次 。返回 已排序的链表 。 图一 图二 示例 1:(图一)输入:head = [1,1,2]输出:[1,2]示例 2:(图

解决Office Word不能切换中文输入

我们在使用WORD的时可能会经常碰到WORD中无法输入中文的情况。因为,虽然我们安装了搜狗输入法,但是到我们在WORD中使用搜狗的输入法的切换中英文的按键的时候会发现根本没有效果,无法将输入法切换成中文的。下面我就介绍一下如何在WORD中把搜狗输入法切换到中文。

HNU-2023电路与电子学-实验3

写在前面: 一、实验目的 1.了解简易模型机的内部结构和工作原理。 2.分析模型机的功能,设计 8 重 3-1 多路复用器。 3.分析模型机的功能,设计 8 重 2-1 多路复用器。 4.分析模型机的工作原理,设计模型机控制信号产生逻辑。 二、实验内容 1.用 VERILOG 语言设计模型机的 8 重 3-1 多路复用器; 2.用 VERILOG 语言设计模型机的 8 重 2-1 多

perl的学习记录——仿真regression

1 记录的背景 之前只知道有这个强大语言的存在,但一直侥幸自己应该不会用到它,所以一直没有开始学习。然而人生这么长,怎就确定自己不会用到呢? 这次要搭建一个可以自动跑完所有case并且打印每个case的pass信息到指定的文件中。从而减轻手动跑仿真,手动查看log信息的重复无效低质量的操作。下面简单记录下自己的思路并贴出自己的代码,方便自己以后使用和修正。 2 思路整理 作为一个IC d

sqlite不支持中文排序,采用java排序

方式一 不支持含有重复字段进行排序 /*** sqlite不支持中文排序,改用java排序* 根据指定的对象属性字段,排序对象集合,顺序* @param list* @param field* @return*/public static List sortListByField(List<?> list,String field){List temp = new ArrayList(