SemEval 2022 | 多语种新闻相似度评测冠军系统简介

2023-11-11 06:50

本文主要是介绍SemEval 2022 | 多语种新闻相似度评测冠军系统简介,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

每天给你送来NLP技术干货!


来自:哈工大讯飞联合实验室

在前不久落下帷幕的第十六届国际语义评测比赛(The 16th International Workshop on Semantic Evaluation, SemEval 2022)中,哈工大讯飞联合实验室(HFL)在多语种新闻相似度评测任务(Task 8: Multilingual News Article Similarity)上以显著的领先优势斩获冠军。本期我们将对这个任务的夺冠系统进行简要介绍,更多具体细节请参考我们的论文。

论文标题:HFL at SemEval-2022 Task 8: A Linguistics-inspired Regression Model with Data Augmentation for Multilingual News Similarity

论文作者:徐梓航,杨子清,崔一鸣,陈志刚

论文链接:https://arxiv.org/abs/2204.04844

项目地址:https://github.com/GeekDream-x/SemEval2022-Task8-TonyX

ff2c2e585ec7e890cc6bf79f88be9b0d.png

任务介绍

SemEval-2022 Task 8是多语种新闻相似度评价任务。任务中给出来自多种语言的新闻篇章对,参赛队伍需要利用模型判定每一对新闻篇章是否描述了同一个事件,并以1至4分的范围为两篇新闻的相似度打分。任务共计覆盖10种语言,包括阿拉伯语、德语、英语、西班牙语、法语、意大利语、波兰语、俄语、土耳其语和中文。与普通的文章相似度任务相比,该评测任务强调考察模型的跨语言理解能力,并要求模型把握文章中描述的具体事件,而不仅是写作风格。 

ccb5e9ab360a39b769480e02a49b6bbd.png

SemEval 2022 Task8 数据样例

系统介绍

我们在语言学特征的启发下,基于多语言预训练模型和回归任务框架,针对当前比赛任务制定了一系列优化策略,最终系统结构如下图所示。整个系统流程包括数据处理、模型训练和预测结果后处理三个阶段:

    1. 数据处理:从指定网页爬取数据,进行数据清理,对清理后的数据做数据增强;

    2. 模型训练:采用基于XLM-R的多语言模型构建的多任务回归打分模型;

    3. 后处理:基于任务数据本身特性,对预测得分进行裁剪。

下面将针对部分主要优化技巧进行简要介绍。

ea6f54f1569ca684e09c73c68c2336f9.png

SemEval 2022 Task8 HFL系统结构


1、数据增强

通过对比训练集和测试集数据分布,我们发现测试集多出3种语言及7种跨语言组合且非英语种占比差别巨大,因此,我们基于训练集进行了两阶段数据增强。首先,为了丰富训练集本身的非英语种数据,我们通过回译对所有包含非英语种的样本对进行了翻倍扩充。而后,通过直译对测试集新出现的语言和跨语言组合进行增强。为了保证增强后的数据具有足够强的语义丰富性,我们选用不同的原语言数据进行直译;同时,我们考虑了不同语种间基于语系语族的亲疏关系,设计了不同增强比例,具体方案如下表。对于和英语相近的语言,增强的样本较少(如德-法对新增317条样本);而和英语关系较远的语言,则增强了较多样本(如中-英对新增了800条样本)。

aeccf7e20ad90dbb340d24c196415c07.png

直译数据增强配对表

2、头尾拼接

由于XLM-RoBERTa所能处理的文本长度有限且数据集中有74%的篇章都长于256个token, 因此考虑对样本进行截取。新闻篇章有鲜明的结构特性,即头部(含标题)和尾部的信息量相对更大,因此我们决定将头尾进行拼接并尝试了不同比例,最终根据对照实验结果,选取头尾长度比例约4:1进行裁剪拼接。

3、多任务学习

如任务介绍部分所示,数据集提供了每个新闻篇章样本从Tone、Narrative等七个维度的相似性打分。尽管最终评测只针对Overall这个整体性维度,但我们认为合理地利用其它六个维度的信息将有助于提升整体性评估的效果,于是我们尝试了多种维度占比方案,发现当Overall权重提高时,模型最终性能有先提升后小幅降低的现象,最终模型选择性能达到峰值所对应的Overall权重范围。

4、Adapted R-Drop

R-Drop被证明是一种简单且有效的基于Dropout的正则化技术,为了更好地适应当前的任务,我们将其中的KL-divergence loss替换为MSE loss,并且通过超参来控制多任务回归学习损失和R-Drop损失的比例。在此基础上,我们还探索了不同forward次数对模型性能的影响。公式如下图所示:

1b56c492926a34f388bf38b179e6aa07.png

Adapted R-Drop Loss计算公式

其中50d36fff91c63e961cfec4b09184a33f.pngbf7decaba566cb7cea12bcedc4313a55.png是样本两次forward的预测值,51d77935d5740b223bd59e7828888a78.png是样本真实值,α控制两种损失的相对强度。

5、其他尝试

除了上述方法,我们还尝试了模型加大增宽、多种获取篇章向量的方案如不同层pooling、基于双塔结构的交互回归框架等,在此任务上这些方法的表现都明显逊色于我们的最终方案。

实验结果

基于多组消融实验,上述提及的五种有效提升方案单独的优化能力如下表所示。

  • 我们针对数据增强做了对照实验(+DA),基于增强集训练得到的模型在测试集上性能提升最为明显,体现了该任务中数据丰富度的重要性。

  • 我们基于非数据增强场景,对其他优化技巧做了对照实验(头尾拼接、多标签、Adapted R-drop、多层分类层等),其中Adapted R-Drop效果最佳。

94e638af947c7839225c1020f44b7dd1.png

各优化方案实验结果

0d1fae1bf463df53727cd0282ae6d095.png

多语种新闻相似度评测任务最终榜单:哈工大讯飞联合实验室排名第一

结论

在三阶段系统框架中,数据处理部分主要使用了两种数据增强的方案,模型训练部分集成了头尾拼接、多任务、Adapted R-Drop和额外线性层等所有有效方案,后处理部分主要进行了打分裁剪和模型融合等工作,最终使得系统整体性能较baseline有较为显著的提升。在多语言新闻相似度场景中,上述优化方案较为充分地挖掘了多语言预训练模型的能力,后续研究工作中,可以尝试添加各语言规则相关特征来进一步提升系统在低资源语言上的表现。

1c5b5256bdf9753a52962636e5b83be5.png

最近文章

EMNLP 2022 和 COLING 2022,投哪个会议比较好?

一种全新易用的基于Word-Word关系的NER统一模型,刷新了14种数据集并达到新SoTA

阿里+北大 | 在梯度上做简单mask竟有如此的神奇效果

ACL'22 | 快手+中科院提出一种数据增强方法:Text Smoothing,非常简单且有效尤其在数据不足的情况下

这篇关于SemEval 2022 | 多语种新闻相似度评测冠军系统简介的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/388284

相关文章

Qt QCustomPlot库简介(最新推荐)

《QtQCustomPlot库简介(最新推荐)》QCustomPlot是一款基于Qt的高性能C++绘图库,专为二维数据可视化设计,它具有轻量级、实时处理百万级数据和多图层支持等特点,适用于科学计算、... 目录核心特性概览核心组件解析1.绘图核心 (QCustomPlot类)2.数据容器 (QCPDataC

Visual Studio 2022 编译C++20代码的图文步骤

《VisualStudio2022编译C++20代码的图文步骤》在VisualStudio中启用C++20import功能,需设置语言标准为ISOC++20,开启扫描源查找模块依赖及实验性标... 默认创建Visual Studio桌面控制台项目代码包含C++20的import方法。右键项目的属性:

linux重启命令有哪些? 7个实用的Linux系统重启命令汇总

《linux重启命令有哪些?7个实用的Linux系统重启命令汇总》Linux系统提供了多种重启命令,常用的包括shutdown-r、reboot、init6等,不同命令适用于不同场景,本文将详细... 在管理和维护 linux 服务器时,完成系统更新、故障排查或日常维护后,重启系统往往是必不可少的步骤。本文

Mac系统下卸载JAVA和JDK的步骤

《Mac系统下卸载JAVA和JDK的步骤》JDK是Java语言的软件开发工具包,它提供了开发和运行Java应用程序所需的工具、库和资源,:本文主要介绍Mac系统下卸载JAVA和JDK的相关资料,需... 目录1. 卸载系统自带的 Java 版本检查当前 Java 版本通过命令卸载系统 Java2. 卸载自定

基于Python实现一个简单的题库与在线考试系统

《基于Python实现一个简单的题库与在线考试系统》在当今信息化教育时代,在线学习与考试系统已成为教育技术领域的重要组成部分,本文就来介绍一下如何使用Python和PyQt5框架开发一个名为白泽题库系... 目录概述功能特点界面展示系统架构设计类结构图Excel题库填写格式模板题库题目填写格式表核心数据结构

Go语言如何判断两张图片的相似度

《Go语言如何判断两张图片的相似度》这篇文章主要为大家详细介绍了Go语言如何中实现判断两张图片的相似度的两种方法,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 在介绍技术细节前,我们先来看看图片对比在哪些场景下可以用得到:图片去重:自动删除重复图片,为存储空间"瘦身"。想象你是一个

Linux系统中的firewall-offline-cmd详解(收藏版)

《Linux系统中的firewall-offline-cmd详解(收藏版)》firewall-offline-cmd是firewalld的一个命令行工具,专门设计用于在没有运行firewalld服务的... 目录主要用途基本语法选项1. 状态管理2. 区域管理3. 服务管理4. 端口管理5. ICMP 阻断

Windows 系统下 Nginx 的配置步骤详解

《Windows系统下Nginx的配置步骤详解》Nginx是一款功能强大的软件,在互联网领域有广泛应用,简单来说,它就像一个聪明的交通指挥员,能让网站运行得更高效、更稳定,:本文主要介绍W... 目录一、为什么要用 Nginx二、Windows 系统下 Nginx 的配置步骤1. 下载 Nginx2. 解压

如何确定哪些软件是Mac系统自带的? Mac系统内置应用查看技巧

《如何确定哪些软件是Mac系统自带的?Mac系统内置应用查看技巧》如何确定哪些软件是Mac系统自带的?mac系统中有很多自带的应用,想要看看哪些是系统自带,该怎么查看呢?下面我们就来看看Mac系统内... 在MAC电脑上,可以使用以下方法来确定哪些软件是系统自带的:1.应用程序文件夹打开应用程序文件夹

windows系统上如何进行maven安装和配置方式

《windows系统上如何进行maven安装和配置方式》:本文主要介绍windows系统上如何进行maven安装和配置方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不... 目录1. Maven 简介2. maven的下载与安装2.1 下载 Maven2.2 Maven安装2.