【自然语言处理】P3 spaCy 与 NLTK(分词、词形还原与词干提取)以及 Porter 和 Snowball

本文主要是介绍【自然语言处理】P3 spaCy 与 NLTK(分词、词形还原与词干提取)以及 Porter 和 Snowball,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

  • 准备工作
    • spaCy
    • NLTK
  • 文本分词
    • spaCy
    • NLTK
  • 词形还原
    • spaCy
    • NLTK
  • 词干提取
    • Porter
    • Snowball stemmers

在自然语言处理(NLP)中,文本分词是将文本拆分为单词或词组的过程,这是理解文本含义和结构的基础。Python中两个流行库——spaCy和NLTK(Natural Language Toolkit),都提供了分词功能。下面将详细介绍如何使用这两个库进行文本分词等操作。

准备工作

spaCy

如果没有安装 spaCy 库,请安装:

# 安装spaCy库
pip install spacy

安装好 spaCy 库后,下载语言模型:

# 安装语言模型数据包(案例为下载英文包)
python -m spacy download en_core_web_sm

常用的语言模型还包含:中文模型(zh_core_web_sm)
更多语言模型请见:https://spacy.io/models

完成库的安装以及英文包的下载。


NLTK

首先安装 NLTK 库:

# 安装 NTLK 库
pip install nltk

下载语言模型:

import nltknltk.download('stopwords')
nltk.download('averaged_perceptron_tagger')
nltk.download('punkt')

完成 NLTK 库的安装以及包的下载。


文本分词

spaCy

首先展示使用库 spaCy 进行分词:

import spacy# 加载英文语料库
nlp = spacy.load('en_core_web_sm')
text = "Natural Language Processing is a subfield of linguistics, computer science and artificial intelligence"
# 进行分词操作
doc = nlp(text)result = []
for token in doc:result.append(token)print(result)

NLTK

展示使用库 NLTK 进行分词:

from nltk.tokenize import word_tokenizetext = "Natural Language Processing is a subfield of linguistics, computer science and artificial intelligence"
# 进行分词操作
tokens = word_tokenize(text)result = []
for token in tokens:result.append(token)print(result)

词形还原

词形还原是一项重要的文本预处理技术,旨在去除词形变化,返回单词的基本形式。这有助于统一词汇在不同语境中的表现形式,使得后续的语言分析更加准确。同样,我们将尝试使用 spaCy 以及 NLTK 库实现词形还原操作。

spaCy

首先展示通过 spaCy 的 doc[0].lemma_ 进行词形还原:

import spacynlp = spacy.load('en_core_web_sm')# 获取词形还原结果
def get_lemmatization(word_list):lemmatized_list = []for word in word_list:doc = nlp(word)lemmatized_word = doc[0].lemma_lemmatized_list.append(lemmatized_word)return lemmatized_listif __name__ == '__main__':test_word_list = ["men", "computers", "ate", "running", "fancier"]result_word_list = get_lemmatization(test_word_list)print(result_word_list)

NLTK

然后展示通过 NLTK 库的 WordNetLemmatizer 函数进行词形还原:

import nltk
from nltk.stem import WordNetLemmatizer# nltk.download("wordnet")
# nltk.download("averaged_perceptron_tagger")lemmatizer = WordNetLemmatizer()test_word_list = ["men", "computers", "ate", "running", "fancier"]
result = [lemmatizer.lemmatize(word) for word in test_word_list]print(result)

对比使用 spaCy 的分词结果以及使用 NLTK 词形还原结果为:

# spaCy:
['man', 'computer', 'eat', 'run', 'fancy']
# NLTK:
['men', 'computer', 'ate', 'running', 'fancier']

对比来看,明显 spaCy 的词形还原效果更好一些;

当然,除了 spaCy 以及 NLTK 可以进行词形还原外,还有另外一些方法,比如 Porter 和 Snowball stemmers 的词干提取法,请见下个部分。


词干提取

词干提取是一种简单形式的词形还原。它涉及使用手工制作的规则来剥去单词的词尾,将其简化成一种叫做词干的常见形式。

Porter

Porter Stemmer 是一个简单的词干提取算法,它通过一系列规则来减少单词到其词干形式。这个算法包括以下几个步骤:

  1. 删除单词末尾的辅音字母序列,直到剩下至少两个字符。
  2. 如果单词以元音字母结尾,删除这个元音字母。
  3. 如果单词长度大于2,且以元音字母开头,则将第一个辅音字母移到词干的开头。

Porter stemmer 示例代码如下:

from nltk.stem import PorterStemmer# 创建 PorterStemmer 实例
stemmer = PorterStemmer()test_word_list = ["running", "jumped", "eating", "playing"]
stemmed_words = [stemmer.stem(word) for word in test_word_list]print(stemmed_words)

Snowball stemmers

Snowball Stemmer 是一个更复杂的词干提取算法,它是 Porter Stemmer 的改进版本,支持多种语言。Snowball Stemmer 采用了 Porter Stemmer 的基本思想,并添加了更多的规则和改进,以提高提取的准确性。

Snowball stemmers 示例代码如下:

from nltk.stem import SnowballStemmer# 选择语言,创建实例
stemmer = SnowballStemmer("english")test_word_list = ["running", "jumped", "eating", "playing"]
stemmed_words = [stemmer.stem(word) for word in test_word_list]print(stemmed_words)

在选择词干提取或词形还原的方法时,需要根据具体需求来决定。词干提取通常用于简化单词,而词形还原则是更加注重保持单词的意义。

  • 建议如果主要目标是简化单词以减少词汇量或提高文本分析的效率,词干提取更加适合;
  • 而如果主要目标是更精确的词义分析,那么词形还原可能是更好的选择。

发布:2024/2/2
版本:第一版
如有任何疑问,请联系我,谢谢!

这篇关于【自然语言处理】P3 spaCy 与 NLTK(分词、词形还原与词干提取)以及 Porter 和 Snowball的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/674604

相关文章

Python FastAPI+Celery+RabbitMQ实现分布式图片水印处理系统

《PythonFastAPI+Celery+RabbitMQ实现分布式图片水印处理系统》这篇文章主要为大家详细介绍了PythonFastAPI如何结合Celery以及RabbitMQ实现简单的分布式... 实现思路FastAPI 服务器Celery 任务队列RabbitMQ 作为消息代理定时任务处理完整

详解C#如何提取PDF文档中的图片

《详解C#如何提取PDF文档中的图片》提取图片可以将这些图像资源进行单独保存,方便后续在不同的项目中使用,下面我们就来看看如何使用C#通过代码从PDF文档中提取图片吧... 当 PDF 文件中包含有价值的图片,如艺术画作、设计素材、报告图表等,提取图片可以将这些图像资源进行单独保存,方便后续在不同的项目中使

C#使用SQLite进行大数据量高效处理的代码示例

《C#使用SQLite进行大数据量高效处理的代码示例》在软件开发中,高效处理大数据量是一个常见且具有挑战性的任务,SQLite因其零配置、嵌入式、跨平台的特性,成为许多开发者的首选数据库,本文将深入探... 目录前言准备工作数据实体核心技术批量插入:从乌龟到猎豹的蜕变分页查询:加载百万数据异步处理:拒绝界面

Springboot处理跨域的实现方式(附Demo)

《Springboot处理跨域的实现方式(附Demo)》:本文主要介绍Springboot处理跨域的实现方式(附Demo),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不... 目录Springboot处理跨域的方式1. 基本知识2. @CrossOrigin3. 全局跨域设置4.

python+opencv处理颜色之将目标颜色转换实例代码

《python+opencv处理颜色之将目标颜色转换实例代码》OpenCV是一个的跨平台计算机视觉库,可以运行在Linux、Windows和MacOS操作系统上,:本文主要介绍python+ope... 目录下面是代码+ 效果 + 解释转HSV: 关于颜色总是要转HSV的掩膜再标注总结 目标:将红色的部分滤

Python实现自动化接收与处理手机验证码

《Python实现自动化接收与处理手机验证码》在移动互联网时代,短信验证码已成为身份验证、账号注册等环节的重要安全手段,本文将介绍如何利用Python实现验证码的自动接收,识别与转发,需要的可以参考下... 目录引言一、准备工作1.1 硬件与软件需求1.2 环境配置二、核心功能实现2.1 短信监听与获取2.

Python使用date模块进行日期处理的终极指南

《Python使用date模块进行日期处理的终极指南》在处理与时间相关的数据时,Python的date模块是开发者最趁手的工具之一,本文将用通俗的语言,结合真实案例,带您掌握date模块的六大核心功能... 目录引言一、date模块的核心功能1.1 日期表示1.2 日期计算1.3 日期比较二、六大常用方法详

利用Go语言开发文件操作工具轻松处理所有文件

《利用Go语言开发文件操作工具轻松处理所有文件》在后端开发中,文件操作是一个非常常见但又容易出错的场景,本文小编要向大家介绍一个强大的Go语言文件操作工具库,它能帮你轻松处理各种文件操作场景... 目录为什么需要这个工具?核心功能详解1. 文件/目录存javascript在性检查2. 批量创建目录3. 文件

Python实现常用文本内容提取

《Python实现常用文本内容提取》在日常工作和学习中,我们经常需要从PDF、Word文档中提取文本,本文将介绍如何使用Python编写一个文本内容提取工具,有需要的小伙伴可以参考下... 目录一、引言二、文本内容提取的原理三、文本内容提取的设计四、文本内容提取的实现五、完整代码示例一、引言在日常工作和学

C++字符串提取和分割的多种方法

《C++字符串提取和分割的多种方法》在C++编程中,字符串处理是一个常见的任务,尤其是在需要从字符串中提取特定数据时,本文将详细探讨如何使用C++标准库中的工具来提取和分割字符串,并分析不同方法的适用... 目录1. 字符串提取的基本方法1.1 使用 std::istringstream 和 >> 操作符示