本文主要是介绍论文笔记5:Integrating Probabilistic Extraction Models and Data Mining to Discover Relations and Patterns,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
使用条件随机场抽取信息,抽取实体间的二元关系
一、论文要解决的问题
在信息抽取系统中,为了获得较好的性能,必须包含数据本身固有的关系模式,但是手工编写这些规则费时费力俄而且不可能编写全部规则。而且数据中存在一些隐藏的关系模式,这对提供信息抽取性能很有帮助。
二、论文使用的方法和亮点
2.1 亮点
- 提出一个集成机器学习模型,能够学习上下文关系和关联关系模式来抽取实体之间的关系,并使用线性链条件随机场从传记数据集中抽取关系。将抽取任务(已有的关系模式)和挖掘任务(隐藏的关系模式)集成到一起
- 为多语言处理任务迈出一步
- 使用实体之间的关系路径信息来避免陷入局部最优值
- 把实体之间关系抽取看作序列标记任务。传统抽取方法主要有:
- 模式匹配方法(Brin, 1998; Agichtein and Gravano, 2000)
- 核方法(Zelenko et al., 2003; Culotta and Sorensen, 2004; Bunescu and Mooney, 2006)
- 逻辑回归方法(Kambhatla, 2004)
- 增强解析树方法(Miller et al., 2000)
核方法核逻辑回归方法可以看作是二分类方法,即首先检测两个实体,然后预测这一对实体时间的关系。这个方法面临两种困难:
- 范围限制在一个句子里,穷举所有实体,抽取出得正样本很低
- 实体识别得错误会累加给后面得关系分类步骤
此论文将研究对象固定在传记文学数据中来避免这种问题: - 首先,传记中通常会主要讨论一个实体,记为principal entity ,然后寻找可能存在的secondary entity,再预测他们之间的关系。
- 这种想法可以使关系抽取看为序列标记任务,像命名实体识别和词性标注任务一样,将此两者的方法用于关系抽取上
- 通过先固定一个实体,降低了需要先抽取文档中所有实体对的困难。
- 一个secondary entity的label就是它和principal entity的关系
- 使用序列标注模型还可以捕捉相邻label之间的依赖关系
2.2 条件随机场模型
线性条件随机场(CRFs)是一种无向图模型,被区分地训练以在给定一组输入变量x的情况下最大化一组输出变量y的条件概率。条件分布如下:
其中, ϕ ϕ 是由 Λ Λ 参数化的势函数,
Λ={λk} Λ = { λ k } 是真实值权重的集合,通过使用梯度上升来最大化数据似然函数得到标签化训练数据创建而来。
2.3 关系模式
对关系模式建模有利于提高抽取准确率,论文从数据库中抽取表明两个实体间存在的相关联系的特征。
通过将这些关系路径作为特征添加到模型中,我们可以学习可能具有低精度的有趣关系模式(例如,“人们可能与同班同学成为朋友”),而不会妨碍提取性能。
每个特征都会有不同的权重,精度不高的关系模式会有较低的权重,但仍会对提取结果有一定影响。
这个方法的优势是高权重的模式能够洞悉数据内部的规律。
三、实验和评估
- 271篇文章,1127条句子,总共4701条关系实例,53个标签。
- 按7:3划分训练集和测试集
- 除了特征模式外,特征还包括:
- 上下文关键词内容(例如前后滑动6个词窗)
- 词典(例如一个token是否出现在城市、人、公司实体集合中)
- 正则表达式(一个token是否是大写的或包含数字或标点符号等)
- 词性
- 前缀/后缀
- 抵消连词
- 结果
这篇关于论文笔记5:Integrating Probabilistic Extraction Models and Data Mining to Discover Relations and Patterns的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!