NLP学习-词形标准化

2023-10-05 18:42
文章标签 学习 标准化 nlp 词形

本文主要是介绍NLP学习-词形标准化,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

首先说一下文本分析流程:

NLP学习-分词:https://blog.csdn.net/RHJlife/article/details/104748790

NLP学习-清洗:https://blog.csdn.net/RHJlife/article/details/104834980

NLP学习-词形标准化https://blog.csdn.net/RHJlife/article/details/104835785

NLP学习-文本特征向量化:https://mp.csdn.net/console/editor/html/104893608

NLP学习-建模:暂无

下面讲述词形标准化的相关内容。

在清洗过程中,我们说到了一个处理,就是同音近音近型替换也就是词形规范化,这里就讲述两种实现的方法,如下

词干提取(Stemming):基于语言的规则,抽取词的词干或词根形式(不一定能够表达完整语义),方法较为简单。

词性还原 (Lemmatisation):基于字典的映射,把一个词汇还原为一般形式(能表达完整语义),方法较为复杂。

(个人也是从晚上搜索了很多相应的资料...发现机会都是一些调库实现,两者的区别和优劣等...具体原理我也没很好的get到,下面我也就简单介绍一些实现方法和优劣了...)

词干提取:在py中也有相应的库(nltk.stem.porter),很容易实现,主要有:

  1. 基于Porter词干提取算法,PorterStemmer()方法
  2. 基于Lancaster 词干提取算法,LancasterStemmer()方法
  3. 基于Snowball 词干提取算法,SnowballStemmer()方法

词性还原 :在py中也有相应的库(nltk.stem.porter),很容易调用实现实现,最常见的就是WordNetLemmatizer()方法

以下将从各种方面对两者进行对比。

从目的上来说:是一致的,词干提取和词形还原的目标均是将词的其他分支形态或者派生形态归并为原始形态,都是一种对词的不同形态的统一归并的过程。

从实现方法上说:词干提取是基于语言的规则的,利用规则变化进行词缀的去除和缩减,从而达到词的简化效果,而词性还原是基于字典的映射,利用字典进行词形变化和原形的映射,还原成为原始单词。

从原理上来说:词干提取是采取缩减的方法将词转换为词干(boys->boy),而词性还原是采取转换的方法将词转换为其原型(made->make)。

从复杂性上来说:词干提取相对容易,而词性还原相对复杂。

从结果上来说:词干提取得到的结果有可能并不是具有意义的词,而只是词的一部分(例如revival->reviv),而词性还原得到的结果一定是完整的单词。

从应用领域上来说:词干提取用于信息检索领域较多,而词性还原更适合文本挖掘、自然语言处理等更精确的领域。

 

 

这篇关于NLP学习-词形标准化的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/151826

相关文章

Python实现NLP的完整流程介绍

《Python实现NLP的完整流程介绍》这篇文章主要为大家详细介绍了Python实现NLP的完整流程,文中的示例代码讲解详细,具有一定的借鉴价值,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. 编程安装和导入必要的库2. 文本数据准备3. 文本预处理3.1 小写化3.2 分词(Tokenizatio

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

线性代数|机器学习-P36在图中找聚类

文章目录 1. 常见图结构2. 谱聚类 感觉后面几节课的内容跨越太大,需要补充太多的知识点,教授讲得内容跨越较大,一般一节课的内容是书本上的一章节内容,所以看视频比较吃力,需要先预习课本内容后才能够很好的理解教授讲解的知识点。 1. 常见图结构 假设我们有如下图结构: Adjacency Matrix:行和列表示的是节点的位置,A[i,j]表示的第 i 个节点和第 j 个