关于Reuters Corpora(路透社语料库)

2023-12-19 09:10

本文主要是介绍关于Reuters Corpora(路透社语料库),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

首先在命令行窗口中进入python编辑环境,输入

>>import nltk
>>nltk.download()

然后加载出:
在这里插入图片描述在Corpora中所有的文件下载到C:\nltk_data中,大小在2.78G左右。
然后开始对其玩弄啦。

加载

from nltk.corpus import reuters
files = reuters.fileids()
#print(files)
words16097 = reuters.words(['test/16097'])
print(words16097)#输出test16097文件中的单词列表

输出结果
在这里插入图片描述太多没显示完全…

#输出路透社语料库中的主题种类
reutersGenres = reuters.categories()
print(reutersGenres)

输出结果:
在这里插入图片描述

#输出‘bop’和‘cocoa’种类中的单词
for w in reuters.words(categories = ['bop','cocoa']):print(w + ' ',end = ' ')if w == '.':print()

输出结果:
在这里插入图片描述

brown语料库的特殊疑问词频率计算

import nltk
from nltk.corpus import brown
print(brown.categories())#brown语料库所有类型列表

输出结果:
在这里插入图片描述

genres = brown.categories()
whwords = ['what','which','how','why','when','where','who']
for i in range(0,len(genres)):genre = genres[i]print()print("Analysing '" + genre + "' wh words")genre_text = brown.words(categories = genre)#将genre类别的整个文本作为列表放在genre_text中fdist = nltk.FreqDist(genre_text)  #FreqDist函数接受一个单词列表返回一个对象,包含映射词和其在列表中的频率for wh in whwords:print(wh + ':',fdist[wh], end = ' ')

输出结果:
在这里插入图片描述

webtext的词频分布

import nltk
from nltk.corpus import webtext
print(webtext.fileids())#webtext中有6个txt文件

输出结果:
在这里插入图片描述

fileids = ['firefox.txt', 'grail.txt', 'overheard.txt', 'pirates.txt', 'singles.txt', 'wine.txt']
fileid = fileids[4]#选择'singles.txt'文件作为我们的探索
wbt_words = webtext.words(fileid)
fdist = nltk.FreqDist(wbt_words)#先随机统计6个单词的频率O(∩_∩)O
word = ['you','are','sky','me','school','love']
for i in word:print(i + ':' ,fdist[i],end = ' ')
print()#------------------------------------------------------
#显示最常出现的单词(fdist.max())和计数(fdist[fdist.max()])
print('Count of the maximum appearing token " ',fdist.max(),'":',fdist[fdist.max()])#
print('Total Number of distinct tokens in the bag:',fdist.N())#最常见的x个单词
print()
print('Following are the most common 10 words in the bag:')
print(fdist.most_common(10))fdist.plot(cumulative = True)#画出词频分布(不忍直视...)

输出结果:
在这里插入图片描述
这个是词频分布

词语多义与上下位词

#词语歧义
from nltk.corpus import wordnet as wn
word = 'chair'#以chair为例
#访问Wordnet数据库API接口,获得word相关含义
word_synsets = wn.synsets(word)
print('Synsets/Senses of',word,':',word_synsets,'\n\n')for synset in word_synsets:print(synset,': ')print('Definition: ',synset.definition())#定义print('Lemmas/Synonymous words: ',synset.lemma_names())#同义词print('Example: ',synset.examples())#例句print()

输出结果:
在这里插入图片描述

#上下位词
from nltk.corpus import wordnet as wn
woman = wn.synset('woman.n.02')
bed = wn.synset('bed.n.01')#woman的上位词
print('\n\nTypes of woman(Hypernyms): ',woman.hypernyms())#返回woman具有直系关系的同义词集
woman_paths = woman.hypernym_paths()
for idx,path in enumerate(woman_paths):print('\n\nHypernym Path :',idx + 1)for synset in path:print(synset.name(),',',end = ' ')#bed的下位词        
type_of_beds = bed.hyponyms()
print('\n\nTypes of beds(Hyponyms): ',type_of_beds)
print('\n')
print(sorted(set(lemma.name() for synset in type_of_beds for lemma in synset.lemmas())))

输出结果:
在这里插入图片描述

平均多义性

from nltk.corpus import wordnet as wn
type = 'n'#选定词性,n为名词
synsets = wn.all_synsets(type)#返回数据库中type类型的所有同义词集
lemmas = []
for synset in synsets:for lemma in synset.lemmas():lemmas.append(lemma.name())
lemmas = set(lemmas)#消重
count = 0
for lemma in lemmas:count = count + len(wn.synsets(lemma,type))print('Total distinct lemmas: ',len(lemmas))
print('Total sences: ',count)
print('Average Polysemy of ',type,': ',count/len(lemmas))

输出结果:
在这里插入图片描述

这篇关于关于Reuters Corpora(路透社语料库)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/511637

相关文章

中文语料库有哪些

中文自然语言处理开放平台 由中国科学院计算技术研究所·数字化室&软件室创立一个研究自然语言处理的一个平台,里面包含有大量的训练测试语料。  语料库:   http://www.nlp.org.cn/docs/doclist.php?cat_id=9&type=15  文本语料库:   http://www.nlp.org.cn/docs/doclist.php?cat_id=16&type=15

Python NLP自然语言处理 nltk载入自己语料库的方法以及文本分词处理

一、使用NLTK中的PlaintextCorpusReader 帮助下载入它们 PlaintextCorpusReader 初始化函数的第一个参数是你要加载的文件的路径,第二个参数可以是一个如['a.txt', 'test/b.txt']这样的 fileids链表,或者一个匹配所有fileids的模式 ,如:'[abc]\.txt' 假定你的文件在/usr/share/dict 目录下,匹配该

“弱智贴吧”的数据,居然是最强中文语料库

中国科学院、北大、中国科技大学、滑铁卢大学、01.ai等10家机构联合推出了,专用于中文的高质量指令调优数据集——COIG-CQIA。 在大模型领域英语一直是训练数据最重要的语言,但由于中英文的结构和文化差异,直接将英文数据集翻译成中文并不理想。所以,为了填补高质量中文数据集的空白,研究人员开发出了COIG-CQIA数据集。 COIG-CQIA几乎抓取了中文互联网的论坛、网站、百度贴吧、问答社

《懒人Shell脚本》之二——语料库的格式化输出

1、引言 在进行自然语言处理(NLP)处理的时候,基本的操作无外乎分词、分类、聚类、命名实体识别、规则过滤、摘要提取、关键字提取、词性标注、拼音标注等。 分类通用的做法就是根据提供的语言库自学习识别成对应的分类。现有的复旦大学提供的语料库有20种分类。(参考:http://www.nlpir.org/?action-viewnews-itemid-103),网上也有提供更多种分类的。 分词网

机器学习笔记 大语言模型是如何运作的?一、语料库和N-gram模型

一、语料库         语言模型、ChatGPT和人工智能似乎无处不在。了解大型语言模型(LLM)“背后”发生的事情将是驾驭数字世界的关键。         首先在提示中键入一个单词,然后点击提交。您可以尝试新的提示,并根据需要多次重新生成响应。         这个我们称之为“T&C”的语言模型是在一组被称为语料库的文本上训练的。该语料库是大型科技公司的条款和条件。

基于kbqa 的复旦大学论文解释 learning question answering over QA corpora and knowledge bases(二)

我们表示第i项其中,,所以,所以我们建立了QA与X的似然线性关系,                                                                                    (13) 最大似然估计QA就是等价最大似然估计X,(2)通过边际化联合概率,得到,基于总体的模板t和谓语p,似然如公式(14),我们阐述整个过程如图4,

python深度学习---路透社多分类

import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport pylabfrom pandas import DataFrame, Series#路透社数据集#多分类问题from keras.datasets import reuters(train_data, train_labels), (te

论文学习Discovering Event Evolution Graphs From News Corpora

摘要 鉴于互联网技术的进步,我们现在可以很容易地从CNN.com等新闻网站上获取任何正在发生的事件的数百或数千条新闻报道,但信息量太大,我们无法捕捉到蓝图。信息检索技术,如主题检测和跟踪技术,能够将新闻故事组织成事件,在一个主题中以扁平的层次结构进行组织。然而,他们无法呈现事件之间复杂的进化关系。我们不仅有兴趣了解重大事件是什么,而且还想了解它们是如何在主题中发展的。它有利于鉴别开创性事件,中间

是否有可能从python中的句子语料库重新训练word2vec模型(例如GoogleNews-vectors-negative300.bin)?

是否有可能从python中的句子语料库重新训练word2vec模型(例如GoogleNews-vectors-negative300.bin)? http://www.voidcn.com/article/p-dsovbvsv-bun.html   NLP 利器 Gensim 库的使用之 Word2Vec 模型案例演示(基于 word2vec-google-news-300 预训练模型,附下

jieba--做最好用的中文分词组件详解【5】(自定义停止词语料库)

写在最前面:   这回真的是最后一篇关于jieba的用法介绍了   关键词提取所使用停止词(停止词)文本语料库切换成自定义语料库的路径   这是使用自带的停用词语料库,使用TF-IDF算法提取20个关键词。 import jiebaimport jieba.analysejieba.load_userdict("userdict.txt")jieba.analyse.set_id