本文主要是介绍gensim 教程 -Part1,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
本文翻译自
Gensim使用Python的标准日志模型,在不同的优先级中来记录各种东西;
为了激活日志,运行:
>>> import logging
>>> logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
简单的例子(Quick Example)
让我们import Gensim,构建一个包含9个文档的语料库,包含12个特征
>>> from gensim import corpora, models, similarities
>>>
>>> corpus = [[(0, 1.0), (1, 1.0), (2, 1.0)],
>>> [(2, 1.0), (3, 1.0), (4, 1.0), (5, 1.0), (6, 1.0), (8, 1.0)],
>>> [(1, 1.0), (3, 1.0), (4, 1.0), (7, 1.0)],
>>> [(0, 1.0), (4, 2.0), (7, 1.0)],
>>> [(3, 1.0), (5, 1.0), (6, 1.0)],
>>> [(9, 1.0)],
>>> [(9, 1.0), (10, 1.0)],
>>> [(9, 1.0), (10, 1.0), (11, 1.0)],
>>> [(8, 1.0), (10, 1.0), (11, 1.0)]]
在Gensim中,语料是一个简单的对象,当遍历它的时候,返回它包含的文档的空间向量表示;在这种情况使用元组列表的列表进行表示;有关 vector space model
如果你熟悉向量空间模型,你可能知道解析文档的方法,把文档转化为向量表示对具体应用的效果影响很大;
接下来,让我们实现一个转型:
>>> tfidf = models.TfidfModel(corpus)
这个转型被用于把文档的一种向量表示变为另外一种向量表示;
>>> vec = [(0, 1), (4, 1)]
>>> print(tfidf[vec])
[(0, 0.8075244), (4, 0.5898342)]
这里,我们使用Tf-ldf,
这篇关于gensim 教程 -Part1的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!