【自然语言处理】P3 spaCy 与 NLTK(分词、词形还原与词干提取)以及 Porter 和 Snowball

本文主要是介绍【自然语言处理】P3 spaCy 与 NLTK(分词、词形还原与词干提取)以及 Porter 和 Snowball,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

  • 准备工作
    • spaCy
    • NLTK
  • 文本分词
    • spaCy
    • NLTK
  • 词形还原
    • spaCy
    • NLTK
  • 词干提取
    • Porter
    • Snowball stemmers

在自然语言处理(NLP)中,文本分词是将文本拆分为单词或词组的过程,这是理解文本含义和结构的基础。Python中两个流行库——spaCy和NLTK(Natural Language Toolkit),都提供了分词功能。下面将详细介绍如何使用这两个库进行文本分词等操作。

准备工作

spaCy

如果没有安装 spaCy 库,请安装:

# 安装spaCy库
pip install spacy

安装好 spaCy 库后,下载语言模型:

# 安装语言模型数据包(案例为下载英文包)
python -m spacy download en_core_web_sm

常用的语言模型还包含:中文模型(zh_core_web_sm)
更多语言模型请见:https://spacy.io/models

完成库的安装以及英文包的下载。


NLTK

首先安装 NLTK 库:

# 安装 NTLK 库
pip install nltk

下载语言模型:

import nltknltk.download('stopwords')
nltk.download('averaged_perceptron_tagger')
nltk.download('punkt')

完成 NLTK 库的安装以及包的下载。


文本分词

spaCy

首先展示使用库 spaCy 进行分词:

import spacy# 加载英文语料库
nlp = spacy.load('en_core_web_sm')
text = "Natural Language Processing is a subfield of linguistics, computer science and artificial intelligence"
# 进行分词操作
doc = nlp(text)result = []
for token in doc:result.append(token)print(result)

NLTK

展示使用库 NLTK 进行分词:

from nltk.tokenize import word_tokenizetext = "Natural Language Processing is a subfield of linguistics, computer science and artificial intelligence"
# 进行分词操作
tokens = word_tokenize(text)result = []
for token in tokens:result.append(token)print(result)

词形还原

词形还原是一项重要的文本预处理技术,旨在去除词形变化,返回单词的基本形式。这有助于统一词汇在不同语境中的表现形式,使得后续的语言分析更加准确。同样,我们将尝试使用 spaCy 以及 NLTK 库实现词形还原操作。

spaCy

首先展示通过 spaCy 的 doc[0].lemma_ 进行词形还原:

import spacynlp = spacy.load('en_core_web_sm')# 获取词形还原结果
def get_lemmatization(word_list):lemmatized_list = []for word in word_list:doc = nlp(word)lemmatized_word = doc[0].lemma_lemmatized_list.append(lemmatized_word)return lemmatized_listif __name__ == '__main__':test_word_list = ["men", "computers", "ate", "running", "fancier"]result_word_list = get_lemmatization(test_word_list)print(result_word_list)

NLTK

然后展示通过 NLTK 库的 WordNetLemmatizer 函数进行词形还原:

import nltk
from nltk.stem import WordNetLemmatizer# nltk.download("wordnet")
# nltk.download("averaged_perceptron_tagger")lemmatizer = WordNetLemmatizer()test_word_list = ["men", "computers", "ate", "running", "fancier"]
result = [lemmatizer.lemmatize(word) for word in test_word_list]print(result)

对比使用 spaCy 的分词结果以及使用 NLTK 词形还原结果为:

# spaCy:
['man', 'computer', 'eat', 'run', 'fancy']
# NLTK:
['men', 'computer', 'ate', 'running', 'fancier']

对比来看,明显 spaCy 的词形还原效果更好一些;

当然,除了 spaCy 以及 NLTK 可以进行词形还原外,还有另外一些方法,比如 Porter 和 Snowball stemmers 的词干提取法,请见下个部分。


词干提取

词干提取是一种简单形式的词形还原。它涉及使用手工制作的规则来剥去单词的词尾,将其简化成一种叫做词干的常见形式。

Porter

Porter Stemmer 是一个简单的词干提取算法,它通过一系列规则来减少单词到其词干形式。这个算法包括以下几个步骤:

  1. 删除单词末尾的辅音字母序列,直到剩下至少两个字符。
  2. 如果单词以元音字母结尾,删除这个元音字母。
  3. 如果单词长度大于2,且以元音字母开头,则将第一个辅音字母移到词干的开头。

Porter stemmer 示例代码如下:

from nltk.stem import PorterStemmer# 创建 PorterStemmer 实例
stemmer = PorterStemmer()test_word_list = ["running", "jumped", "eating", "playing"]
stemmed_words = [stemmer.stem(word) for word in test_word_list]print(stemmed_words)

Snowball stemmers

Snowball Stemmer 是一个更复杂的词干提取算法,它是 Porter Stemmer 的改进版本,支持多种语言。Snowball Stemmer 采用了 Porter Stemmer 的基本思想,并添加了更多的规则和改进,以提高提取的准确性。

Snowball stemmers 示例代码如下:

from nltk.stem import SnowballStemmer# 选择语言,创建实例
stemmer = SnowballStemmer("english")test_word_list = ["running", "jumped", "eating", "playing"]
stemmed_words = [stemmer.stem(word) for word in test_word_list]print(stemmed_words)

在选择词干提取或词形还原的方法时,需要根据具体需求来决定。词干提取通常用于简化单词,而词形还原则是更加注重保持单词的意义。

  • 建议如果主要目标是简化单词以减少词汇量或提高文本分析的效率,词干提取更加适合;
  • 而如果主要目标是更精确的词义分析,那么词形还原可能是更好的选择。

发布:2024/2/2
版本:第一版
如有任何疑问,请联系我,谢谢!

这篇关于【自然语言处理】P3 spaCy 与 NLTK(分词、词形还原与词干提取)以及 Porter 和 Snowball的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/674604

相关文章

Python字符串处理方法超全攻略

《Python字符串处理方法超全攻略》字符串可以看作多个字符的按照先后顺序组合,相当于就是序列结构,意味着可以对它进行遍历、切片,:本文主要介绍Python字符串处理方法的相关资料,文中通过代码介... 目录一、基础知识:字符串的“不可变”特性与创建方式二、常用操作:80%场景的“万能工具箱”三、格式化方法

Spring Boot 处理带文件表单的方式汇总

《SpringBoot处理带文件表单的方式汇总》本文详细介绍了六种处理文件上传的方式,包括@RequestParam、@RequestPart、@ModelAttribute、@ModelAttr... 目录方式 1:@RequestParam接收文件后端代码前端代码特点方式 2:@RequestPart接

Python自动化提取多个Word文档的文本

《Python自动化提取多个Word文档的文本》在日常工作和学习中,我们经常需要处理大量的Word文档,本文将深入探讨如何利用Python批量提取Word文档中的文本内容,帮助你解放生产力,感兴趣的小... 目录为什么需要批量提取Word文档文本批量提取Word文本的核心技术与工具安装 Spire.Doc

使用Python将PDF表格自动提取并写入Word文档表格

《使用Python将PDF表格自动提取并写入Word文档表格》在实际办公与数据处理场景中,PDF文件里的表格往往无法直接复制到Word中,本文将介绍如何使用Python从PDF文件中提取表格数据,并将... 目录引言1. 加载 PDF 文件并准备 Word 文档2. 提取 PDF 表格并创建 Word 表格

Python+FFmpeg实现视频自动化处理的完整指南

《Python+FFmpeg实现视频自动化处理的完整指南》本文总结了一套在Python中使用subprocess.run调用FFmpeg进行视频自动化处理的解决方案,涵盖了跨平台硬件加速、中间素材处理... 目录一、 跨平台硬件加速:统一接口设计1. 核心映射逻辑2. python 实现代码二、 中间素材处

Go异常处理、泛型和文件操作实例代码

《Go异常处理、泛型和文件操作实例代码》Go语言的异常处理机制与传统的面向对象语言(如Java、C#)所使用的try-catch结构有所不同,它采用了自己独特的设计理念和方法,:本文主要介绍Go异... 目录一:异常处理常见的异常处理向上抛中断程序恢复程序二:泛型泛型函数泛型结构体泛型切片泛型 map三:文

SpringSecurity中的跨域问题处理方案

《SpringSecurity中的跨域问题处理方案》本文介绍了跨域资源共享(CORS)技术在JavaEE开发中的应用,详细讲解了CORS的工作原理,包括简单请求和非简单请求的处理方式,本文结合实例代码... 目录1.什么是CORS2.简单请求3.非简单请求4.Spring跨域解决方案4.1.@CrossOr

requests处理token鉴权接口和jsonpath使用方式

《requests处理token鉴权接口和jsonpath使用方式》文章介绍了如何使用requests库进行token鉴权接口的处理,包括登录提取token并保存,还详述了如何使用jsonpath表达... 目录requests处理token鉴权接口和jsonpath使用json数据提取工具总结reques

C# 空值处理运算符??、?. 及其它常用符号

《C#空值处理运算符??、?.及其它常用符号》本文主要介绍了C#空值处理运算符??、?.及其它常用符号,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面... 目录一、核心运算符:直接解决空值问题1.??空合并运算符2.?.空条件运算符二、辅助运算符:扩展空值处理

浅析Python中如何处理Socket超时

《浅析Python中如何处理Socket超时》在网络编程中,Socket是实现网络通信的基础,本文将深入探讨Python中如何处理Socket超时,并提供完整的代码示例和最佳实践,希望对大家有所帮助... 目录开篇引言核心要点逐一深入讲解每个要点1. 设置Socket超时2. 处理超时异常3. 使用sele