NLP之语言词素Morpheme(形态学)

2024-05-05 14:48

本文主要是介绍NLP之语言词素Morpheme(形态学),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Morpheme (词素),人类语言中表达语义的最小单元。

举个例子:

  • Eat 表示“吃”,不能再分了,ea 或 at 在这里都没有任何意义。所以eat是一个word,也是一个Morpheme。
  • Tomcats 表示 “雄猫”的复数, (包含三个 morphemes: tom = male, cat=animal, -s = plural)

   

Morpheme词素,可以分为两类, Free Morpheme和 Bound Morpheme。

Free Morpheme,比如前面的eat,可以独立作为一个word,可以单独使用。

Bound Morpheme,比如前面的-s,必须附加到其它的Morpheme词素,和它们一起使用。

根据各个词素在word中的不同作用和位置,可以把它们进行成分式的分类/划分。下面的图描述了对kickers一词进行成分划分。

 

 

至于Stem。一般而言,给Root加一个derivational morpheme派生词素,它就变成了Stem 比如,kickers中kick就是这个词的Root,加上派生词素-er后,则kicker变成了Stem,派生词素-er负责将kick从一个动词派生(转化)为一个名词,含义相关,但已变化。

与派生词素容易混淆的是屈折词素Inflectional Morphemes,比如我们在kicker后加词素-s,

kicker的语义没有任何变化,但是在语法中人称格数发生了变化,这样的词素就被称为屈折词素Inflectional Morphemes。与派生词素-er相比,屈折词素-s可以改变时态或人称格数,不能改变含义。

 既然Base是Bound Morpheme可以附着的主体部分。那么我们再来看看可以附着在Base上的那部分Bound Morpheme,即Affixes。

 

Affixes词缀分为前缀Prefixes和后缀Suffixes两类。

举个例子:

给你一个word,把这个word分析出Base Root Stem和Affixes等词素成分的过程叫做词分析Word Analysis。

比如:

  • hospitalize - complex word, free base hospital (root) + -ize derivational suffix
  • hospitalizes = stem [hospital (root) + -ize affix] + -s

这种分析表明,单词不是一下子形成的。需要遵循顺序来构成。为了捕捉描述单词形成的过程,语言学家开发了两种表示方法。一种方法是标记包围;另一种方法是树结构。 

标记包围:表示如下 

 再来一个更复杂的标记包围的例子

 用树结构表示是什么样子的呢?

Trees can be drawn from the top-down or from the bottom-up.

Using the top down method: start with the base word label, in this case A for adjective, then split off each major division. In this case there is just one affix, Af, and an adjective, A. Once the parts are labeled, the word parts can be filled in underneath.

把rehospitalizes用树结构表示,则会是下面这个样子:

 

这篇关于NLP之语言词素Morpheme(形态学)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/961965

相关文章

C语言中的数据类型强制转换

《C语言中的数据类型强制转换》:本文主要介绍C语言中的数据类型强制转换方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录C语言数据类型强制转换自动转换强制转换类型总结C语言数据类型强制转换强制类型转换:是通过类型转换运算来实现的,主要的数据类型转换分为自动转换

利用Go语言开发文件操作工具轻松处理所有文件

《利用Go语言开发文件操作工具轻松处理所有文件》在后端开发中,文件操作是一个非常常见但又容易出错的场景,本文小编要向大家介绍一个强大的Go语言文件操作工具库,它能帮你轻松处理各种文件操作场景... 目录为什么需要这个工具?核心功能详解1. 文件/目录存javascript在性检查2. 批量创建目录3. 文件

C语言实现两个变量值交换的三种方式

《C语言实现两个变量值交换的三种方式》两个变量值的交换是编程中最常见的问题之一,以下将介绍三种变量的交换方式,其中第一种方式是最常用也是最实用的,后两种方式一般只在特殊限制下使用,需要的朋友可以参考下... 目录1.使用临时变量(推荐)2.相加和相减的方式(值较大时可能丢失数据)3.按位异或运算1.使用临时

使用C语言实现交换整数的奇数位和偶数位

《使用C语言实现交换整数的奇数位和偶数位》在C语言中,要交换一个整数的二进制位中的奇数位和偶数位,重点需要理解位操作,当我们谈论二进制位的奇数位和偶数位时,我们是指从右到左数的位置,本文给大家介绍了使... 目录一、问题描述二、解决思路三、函数实现四、宏实现五、总结一、问题描述使用C语言代码实现:将一个整

C语言字符函数和字符串函数示例详解

《C语言字符函数和字符串函数示例详解》本文详细介绍了C语言中字符分类函数、字符转换函数及字符串操作函数的使用方法,并通过示例代码展示了如何实现这些功能,通过这些内容,读者可以深入理解并掌握C语言中的字... 目录一、字符分类函数二、字符转换函数三、strlen的使用和模拟实现3.1strlen函数3.2st

Go语言中最便捷的http请求包resty的使用详解

《Go语言中最便捷的http请求包resty的使用详解》go语言虽然自身就有net/http包,但是说实话用起来没那么好用,resty包是go语言中一个非常受欢迎的http请求处理包,下面我们一起来学... 目录安装一、一个简单的get二、带查询参数三、设置请求头、body四、设置表单数据五、处理响应六、超

C语言中的浮点数存储详解

《C语言中的浮点数存储详解》:本文主要介绍C语言中的浮点数存储详解,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、首先明确一个概念2、接下来,讲解C语言中浮点型数存储的规则2.1、可以将上述公式分为两部分来看2.2、问:十进制小数0.5该如何存储?2.3 浮点

基于Python实现多语言朗读与单词选择测验

《基于Python实现多语言朗读与单词选择测验》在数字化教育日益普及的今天,开发一款能够支持多语言朗读和单词选择测验的程序,对于语言学习者来说无疑是一个巨大的福音,下面我们就来用Python实现一个这... 目录一、项目概述二、环境准备三、实现朗读功能四、实现单词选择测验五、创建图形用户界面六、运行程序七、

使用Go语言开发一个命令行文件管理工具

《使用Go语言开发一个命令行文件管理工具》这篇文章主要为大家详细介绍了如何使用Go语言开发一款命令行文件管理工具,支持批量重命名,删除,创建,移动文件,需要的小伙伴可以了解下... 目录一、工具功能一览二、核心代码解析1. 主程序结构2. 批量重命名3. 批量删除4. 创建文件/目录5. 批量移动三、如何安

python使用fastapi实现多语言国际化的操作指南

《python使用fastapi实现多语言国际化的操作指南》本文介绍了使用Python和FastAPI实现多语言国际化的操作指南,包括多语言架构技术栈、翻译管理、前端本地化、语言切换机制以及常见陷阱和... 目录多语言国际化实现指南项目多语言架构技术栈目录结构翻译工作流1. 翻译数据存储2. 翻译生成脚本