NLTK自然语言处理（2）NLTK常用命令

本文主要是介绍NLTK自然语言处理（2）NLTK常用命令，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

文章目录

搜索文本
- 相似上下文
- 共同上下文
- 单词的位置信息离散图
单词计数
- 文本长度
- 词汇表
- 单词个数与单词占比
- 平均词长、句长、每个词出现次数
简单的统计
- 频率分布
- - 频率分布类中定义的函数
- 条件频率分布
- 细粒度的选择词
- - 按字符长度选择单词
  - 多重条件选择单词
- 词语搭配和双连词

搜索文本

相似上下文

similar() 用来查看与目标词出现在相似上下文中的词。第一个参数是目标词，第二个参数是相似词的个数，默认num=20

共同上下文

common_contexts() 可以查看一个列表中的词的共同上下文

单词的位置信息离散图

dispersion_plot() 可以用离散图表示词的位置信息，横轴表示从文本开头算起前方有多少词。

单词计数

文本长度

len() 文本长度计算的是单词与标点或者叫做“标识符”的数量的总和

词汇表

set() 可以生成文本的词汇表，即将重复的标识符合并后生成的列表

单词个数与单词占比

count() 可以直接返回某单词在文本中的个数

100*text4.count('a')/len(text4)#单词a的占比

平均词长、句长、每个词出现次数

 for fileid in gutenberg.fileids():num_chars = len(gutenberg.raw(fileid)) #字符数num_words = len(gutenberg.words(fileid))#词数num_sents = len(gutenberg.sents(fileid))#句子数
num_vocab = len(set(w.lower() for w in gutenberg.words(fileid)))#不区分大小写不重复词数
print(round(num_chars/num_words), round(num_words/num_sents), round(num_words/num_vocab), fileid)
#输出平均词长、平均句子长度、本文中每个词出现的平均次数（我们的词汇多样性得分）

简单的统计

频率分布

频率分布类中定义的函数

fdist = FreqDist(samples) 创建包含给定样本的频率分布
fdist[sample] += 1	增加样本的数目
fdist['monstrous']	计数给定样本出现的次数
fdist.freq('monstrous')	给定样本的频率
fdist.N()	样本总数
fdist.most_common(n)	最常见的n 个样本和它们的频率
for sample in fdist:	遍历样本
fdist.max()	数值最大的样本
fdist.tabulate()	绘制频率分布表
fdist.plot()	绘制频率分布图
fdist.plot(cumulative=True)	绘制累积频率分布图
fdist1 |= fdist2	使用fdist2 更新fdist1 中的数目
fdist1 < fdist2	测试样本在fdist1 中出现的频率是否小于fdist2

条件频率分布

当语料文本被分为几类，如文体、主题、作者等时，可以计算每个类别独立的频率分布，这将允许我们研究类别之间的系统性差异。
条件频率分布是频率分布的集合，每个频率分布有一个不同的“条件”。这个条件通常是文本的类别。
ConditionalFreqDist()
条件频率分布需要给每个事件关联一个条件。
所以不是处理一个单词词序列，我们必须处理的是一个配对序列
每个配对的形式是：(条件, 事件)