本文主要是介绍NLP之语言词素Morpheme(形态学),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
Morpheme (词素),人类语言中表达语义的最小单元。
举个例子:
- Eat 表示“吃”,不能再分了,ea 或 at 在这里都没有任何意义。所以eat是一个word,也是一个Morpheme。
- Tomcats 表示 “雄猫”的复数, (包含三个 morphemes: tom = male, cat=animal, -s = plural)
Morpheme词素,可以分为两类, Free Morpheme和 Bound Morpheme。
Free Morpheme,比如前面的eat,可以独立作为一个word,可以单独使用。
Bound Morpheme,比如前面的-s,必须附加到其它的Morpheme词素,和它们一起使用。
根据各个词素在word中的不同作用和位置,可以把它们进行成分式的分类/划分。下面的图描述了对kickers一词进行成分划分。
至于Stem。一般而言,给Root加一个derivational morpheme派生词素,它就变成了Stem。 比如,kickers中kick就是这个词的Root,加上派生词素-er后,则kicker变成了Stem,派生词素-er负责将kick从一个动词派生(转化)为一个名词,含义相关,但已变化。
与派生词素容易混淆的是屈折词素Inflectional Morphemes,比如我们在kicker后加词素-s,
kicker的语义没有任何变化,但是在语法中人称格数发生了变化,这样的词素就被称为屈折词素Inflectional Morphemes。与派生词素-er相比,屈折词素-s可以改变时态或人称格数,不能改变含义。
既然Base是Bound Morpheme可以附着的主体部分。那么我们再来看看可以附着在Base上的那部分Bound Morpheme,即Affixes。
Affixes词缀,分为前缀Prefixes和后缀Suffixes两类。
举个例子:
给你一个word,把这个word分析出Base Root Stem和Affixes等词素成分的过程叫做词分析Word Analysis。
比如:
- hospitalize - complex word, free base hospital (root) + -ize derivational suffix
- hospitalizes = stem [hospital (root) + -ize affix] + -s
这种分析表明,单词不是一下子形成的。需要遵循顺序来构成。为了捕捉描述单词形成的过程,语言学家开发了两种表示方法。一种方法是标记包围;另一种方法是树结构。
标记包围:表示如下
再来一个更复杂的标记包围的例子
用树结构表示是什么样子的呢?
Trees can be drawn from the top-down or from the bottom-up.
Using the top down method: start with the base word label, in this case A for adjective, then split off each major division. In this case there is just one affix, Af, and an adjective, A. Once the parts are labeled, the word parts can be filled in underneath.
把rehospitalizes用树结构表示,则会是下面这个样子:
这篇关于NLP之语言词素Morpheme(形态学)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!