本文主要是介绍NLTK自然语言处理(2)NLTK常用命令,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
文章目录
- 搜索文本
- 相似上下文
- 共同上下文
- 单词的位置信息离散图
- 单词计数
- 文本长度
- 词汇表
- 单词个数与单词占比
- 平均词长、句长、每个词出现次数
- 简单的统计
- 频率分布
- 频率分布类中定义的函数
- 条件频率分布
- 细粒度的选择词
- 按字符长度选择单词
- 多重条件选择单词
- 词语搭配和双连词
搜索文本
相似上下文
similar() 用来查看与目标词出现在相似上下文中的词。第一个参数是目标词,第二个参数是相似词的个数,默认num=20
共同上下文
common_contexts() 可以查看一个列表中的词的共同上下文
单词的位置信息离散图
dispersion_plot() 可以用离散图表示词的位置信息,横轴表示从文本开头算起前方有多少词。
单词计数
文本长度
len() 文本长度计算的是单词与标点或者叫做“标识符”的数量的总和
词汇表
set() 可以生成文本的词汇表,即将重复的标识符合并后生成的列表
单词个数与单词占比
count() 可以直接返回某单词在文本中的个数
100*text4.count('a')/len(text4)#单词a的占比
平均词长、句长、每个词出现次数
for fileid in gutenberg.fileids():num_chars = len(gutenberg.raw(fileid)) #字符数num_words = len(gutenberg.words(fileid))#词数num_sents = len(gutenberg.sents(fileid))#句子数
num_vocab = len(set(w.lower() for w in gutenberg.words(fileid)))#不区分大小写不重复词数
print(round(num_chars/num_words), round(num_words/num_sents), round(num_words/num_vocab), fileid)
#输出平均词长、平均句子长度、本文中每个词出现的平均次数(我们的词汇多样性得分)
简单的统计
频率分布
频率分布类中定义的函数
fdist = FreqDist(samples) 创建包含给定样本的频率分布
fdist[sample] += 1 增加样本的数目
fdist['monstrous'] 计数给定样本出现的次数
fdist.freq('monstrous') 给定样本的频率
fdist.N() 样本总数
fdist.most_common(n) 最常见的n 个样本和它们的频率
for sample in fdist: 遍历样本
fdist.max() 数值最大的样本
fdist.tabulate() 绘制频率分布表
fdist.plot() 绘制频率分布图
fdist.plot(cumulative=True) 绘制累积频率分布图
fdist1 |= fdist2 使用fdist2 更新fdist1 中的数目
fdist1 < fdist2 测试样本在fdist1 中出现的频率是否小于fdist2
条件频率分布
当语料文本被分为几类,如文体、主题、作者等时,可以计算每个类别独立的频率分布,这将允许我们研究类别之间的系统性差异。
条件频率分布是频率分布的集合,每个频率分布有一个不同的“条件”。这个条件通常是文本的类别。
ConditionalFreqDist()
条件频率分布需要给每个事件关联一个条件。
所以不是处理一个单词词序列,我们必须处理的是一个配对序列
每个配对的形式是:(条件, 事件)
细粒度的选择词
按字符长度选择单词
多重条件选择单词
词语搭配和双连词
bigrams() 获取了包含传入词汇的双连词。
collocations() 从两个语料库中获取了一些搭配,一个“搭配”是经常在一起出现的词序列。
这篇关于NLTK自然语言处理(2)NLTK常用命令的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!