实习点滴（3）--以“词性标注”为例理解CRF算法

本文主要是介绍实习点滴（3）--以“词性标注”为例理解CRF算法，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

看了CRF相关的东西好几天了，现在也过来总结总结。我本人喜欢以讲故事的方式阐述一些东西，纯理论总是很抽象，而且很容易让人失去耐心。那就以“词性标注”为切入点，去理解一下CRF（Conditional Random Field）条件随机场的算法原理（难免有不对或者不全的地方，持续更新）。

条件随机场模型既具有判别式模型的优点，又具有产生式模型考虑到的上下文标记间的转移概率。以序列化形式进行全局参数优化和解码的特点，解决了其他判别式模型难以避免的标记偏执问题。

可以用于“序列标记”、“数据分割”、“组块分析”等自然语言处理任务。在“中文分词”、“中文人名识别”、“歧义消除”等任务中表现很好。

首先，需要将分词语料的标注符号转化为用于命名实体序列标注的标记。

其次，确定特征模板，一般采用当前位置的前后n个位置的字及其标记表示，即以当前位置的前后n个位置范围内的子串及其标记作为观察窗口（一般n取2~3）

然后，得到相应的特征函数

最后，剩下的工作就是训练CRF模型的参数λ0

词性标注，顾名思义，就是说一句话中预测出各个词组的词性（比如：动词、名词、形容词、介词等等）。

以一句话：“我们是中国人”为例，通过词组分割后的结果就是：“我们(n)/是(v)/中国人(n)”（这里相当于是训练数据，这样的训练数据假设我们有1000条）

假设我们的label有5个：{名词，动词，形容词，介词，副词}（当然还有很多，这里点到为止）

现在给出一个特征模板：以当前位置为起始，向后，以n=2为滑动窗口，即：当前词和接下来的一个词为一个特征模板（假设我们类似的特征模板有7个）

准备好了吗？要开始解释公式部分了，该部分请对照CRF的公式。

其中，函数t()代表转移函数，而函数s()代表状态函数；j是模板序列号（一种模板有一种转移特征函数），k是标签个数（一个标签有一个状态函数）

以上边那个模板为例，我们会得到一个5*5的转移矩阵（5代表我们的label个数），矩阵中每个数代表label-->label的个数（比如：当前词为名词，下一个词为动词的次数）

来说说什么是“状态函数”吧，状态函数则表示在标注序列中第i个位置标记(（以模板序列为段）某个label的概率。（第i个位置就有5个参数）

再来说说什么是“转移函数”吧，就是在标注序列中第i个位置是某个label到另一个label的概率，这些概率都是基于统计频数计算的。（第i个位置就有5*5个参数）

这篇关于实习点滴（3）--以“词性标注”为例理解CRF算法的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！