【自然语言处理】P3 spaCy 与 NLTK（分词、词形还原与词干提取）以及 Porter 和 Snowball

本文主要是介绍【自然语言处理】P3 spaCy 与 NLTK（分词、词形还原与词干提取）以及 Porter 和 Snowball，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

在自然语言处理（NLP）中，文本分词是将文本拆分为单词或词组的过程，这是理解文本含义和结构的基础。Python中两个流行库——spaCy和NLTK（Natural Language Toolkit），都提供了分词功能。下面将详细介绍如何使用这两个库进行文本分词等操作。

准备工作

spaCy

如果没有安装 spaCy 库，请安装：

# 安装spaCy库
pip install spacy

安装好 spaCy 库后，下载语言模型：

# 安装语言模型数据包（案例为下载英文包）
python -m spacy download en_core_web_sm

常用的语言模型还包含：中文模型（zh_core_web_sm）
更多语言模型请见：https://spacy.io/models

完成库的安装以及英文包的下载。

NLTK

首先安装 NLTK 库：

# 安装 NTLK 库
pip install nltk

下载语言模型：

import nltknltk.download('stopwords')
nltk.download('averaged_perceptron_tagger')
nltk.download('punkt')

完成 NLTK 库的安装以及包的下载。

文本分词

spaCy

首先展示使用库 spaCy 进行分词：

import spacy# 加载英文语料库
nlp = spacy.load('en_core_web_sm')
text = "Natural Language Processing is a subfield of linguistics, computer science and artificial intelligence"
# 进行分词操作
doc = nlp(text)result = []
for token in doc:result.append(token)print(result)

NLTK

展示使用库 NLTK 进行分词：

from nltk.tokenize import word_tokenizetext = "Natural Language Processing is a subfield of linguistics, computer science and artificial intelligence"
# 进行分词操作
tokens = word_tokenize(text)result = []
for token in tokens:result.append(token)print(result)

词形还原

词形还原是一项重要的文本预处理技术，旨在去除词形变化，返回单词的基本形式。这有助于统一词汇在不同语境中的表现形式，使得后续的语言分析更加准确。同样，我们将尝试使用 spaCy 以及 NLTK 库实现词形还原操作。

spaCy

首先展示通过 spaCy 的 doc[0].lemma_ 进行词形还原：

import spacynlp = spacy.load('en_core_web_sm')# 获取词形还原结果
def get_lemmatization(word_list):lemmatized_list = []for word in word_list:doc = nlp(word)lemmatized_word = doc[0].lemma_lemmatized_list.append(lemmatized_word)return lemmatized_listif __name__ == '__main__':test_word_list = ["men", "computers", "ate", "running", "fancier"]result_word_list = get_lemmatization(test_word_list)print(result_word_list)

NLTK

然后展示通过 NLTK 库的 WordNetLemmatizer 函数进行词形还原：

import nltk
from nltk.stem import WordNetLemmatizer# nltk.download("wordnet")
# nltk.download("averaged_perceptron_tagger")lemmatizer = WordNetLemmatizer()test_word_list = ["men", "computers", "ate", "running", "fancier"]
result = [lemmatizer.lemmatize(word) for word in test_word_list]print(result)

对比使用 spaCy 的分词结果以及使用 NLTK 词形还原结果为：

# spaCy:
['man', 'computer', 'eat', 'run', 'fancy']
# NLTK:
['men', 'computer', 'ate', 'running', 'fancier']

对比来看，明显 spaCy 的词形还原效果更好一些；

当然，除了 spaCy 以及 NLTK 可以进行词形还原外，还有另外一些方法，比如 Porter 和 Snowball stemmers 的词干提取法，请见下个部分。

词干提取

词干提取是一种简单形式的词形还原。它涉及使用手工制作的规则来剥去单词的词尾，将其简化成一种叫做词干的常见形式。

Porter

Porter Stemmer 是一个简单的词干提取算法，它通过一系列规则来减少单词到其词干形式。这个算法包括以下几个步骤：

删除单词末尾的辅音字母序列，直到剩下至少两个字符。
如果单词以元音字母结尾，删除这个元音字母。
如果单词长度大于2，且以元音字母开头，则将第一个辅音字母移到词干的开头。

Porter stemmer 示例代码如下：

from nltk.stem import PorterStemmer# 创建 PorterStemmer 实例
stemmer = PorterStemmer()test_word_list = ["running", "jumped", "eating", "playing"]
stemmed_words = [stemmer.stem(word) for word in test_word_list]print(stemmed_words)

Snowball stemmers

Snowball Stemmer 是一个更复杂的词干提取算法，它是 Porter Stemmer 的改进版本，支持多种语言。Snowball Stemmer 采用了 Porter Stemmer 的基本思想，并添加了更多的规则和改进，以提高提取的准确性。

Snowball stemmers 示例代码如下：

from nltk.stem import SnowballStemmer# 选择语言，创建实例
stemmer = SnowballStemmer("english")test_word_list = ["running", "jumped", "eating", "playing"]
stemmed_words = [stemmer.stem(word) for word in test_word_list]print(stemmed_words)