多语言生成式语言模型用于零样本跨语言事件论证提取（ACL2023）

本文主要是介绍多语言生成式语言模型用于零样本跨语言事件论证提取（ACL2023），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

1、写作动机：

经过预训练的生成式语言模型更好地捕捉实体之间的结构和依赖关系，因为模板提供了额外的声明性信息。先前工作中模板的设计是依赖于语言的，这使得很难将其扩展到零样本跨语言转移设置。

2、主要贡献：

作者提出了一项研究，利用多语言预训练生成模型进行零样本跨语言事件论证提取，并提出了X-GEAR模型。

3、零样本跨语言事件论元抽取：

4、X-GEAR方法：

图如上所示。

所用模型：对 mBART-50/mT5进行微调，并且添加复制机制来更好地适应输入语言的变化。

4.1语言无关模板：

标记（[None]，<Agent>，</Agent>，<Victim>等）被编码为预训练模型从未见过的特殊标记，因此它们的表示需要从头开始学习。由于这些特殊标记与任何语言都不相关且没有经过预训练，因此它们被视为与语言无关。

4.2目标输出字符串：

4.3输入格式：

输入段落+提示

提示=触发器+语言无关模板

PS：提示中没有明确包含事件类型，因为模板隐含地包含了这个信息。

4.4训练：

初始目标函数：

添加复制机制:通过添加复制机制来增强多语言预训练生成模型，以帮助X-GEAR更好地适应跨语言情景。该方法将由多语言预训练生成模型Pgen计算的词汇分布和由复制分布Pcopy加权求和，其中wcopy ∈ [0，1]是通过将时间步i处的解码器隐藏状态传递给线性层来计算的复制概率。至于Pcopy，它是指由最后一个解码器层计算的（在时间步i处）的交叉注意力加权的输入标记上的概率。