13. Enhancing Aspect Extraction Hindi 阅读笔记

2023-10-30 18:20

本文主要是介绍13. Enhancing Aspect Extraction Hindi 阅读笔记,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Enhancing Aspect Extraction Hindi

ACL 2021
作者:Arghya Bhattacharya, Alok Debnath and Manish Shrivastava
单位:International Institute of Information Technology, Hyderabad (IIIT-H)

Abstract

属性抽取在印度语言并不是一个被充分探索的任务,只有一个公开的数据集Hindi.在本文中,我们就现存数据集在属性抽取方面的质量、大小、稀疏性和性能进行了分析。为了给属性抽取提供一个更好的基线模型,我们翻译了SemEval 2014基于属性的情感分析的数据集,并且人工标注了翻译之后数据集中的属性词。我们为这项任务提供了严格的指导方针和可复制的方法。我们使用标注者之间的协议评分,定量评估翻译和标注。并且,我们还在单语言和多语言设置中,使用SOTA的神经属性抽取模型评估新构造的数据集。结果显示:模型在新构造的数据集取得了优于原数据集的性能。为此,我们将新构造的数据集作为印度语属性抽取的黄金数据集(gold-standard)。

1 Introduction

  最近的文献显示,在细粒度的NLP下游任务,出现了越来越多的研究。细粒度分析的一种常见方法是使用属性信息。属性词是一个感兴趣的实体,它标识一个
预定义主题或领域的独特属性。【1】例如:在餐馆领域“service”和“seasoning”是属性词。属性抽取经常被看作是细粒度情感分析的一个子任务,最近的论文将其看作是一个独立的任务,也可以作为其它任务的下游任务,如摘要,特定主题的信息检索(如意见挖掘等)。
  属性抽取任务的数据集和模型为多种语言开发。SemEval 2014 2015 2016中的ABSA任务是一个共享的任务,并且也作为Twitter和SemEval 2017的一个子任务。这些任务产生了各种语言,如阿拉伯语、中文、荷兰语、法语、俄语、西班牙语和土耳其语。每一个单语言数据集由一个或两个领域构成,每个语言的数据集总共有介于4000到9000个句子之间(包括测试集和训练集)。对于印地语,有一些研究者已做了相关工作。
  除了开发单一数据集之外,在改善印地语AE和ABSA的状态方面已经做了有限的工作,即Akhtar等人(2016)。现有的评估表明,与英语AE以及类似的印地语序列标注任务(如命名实体识别(NER)和事件检测相比,现有的序列标注模型(通用的和特定的AE)在该数据集上的表现非常差。
  在本文中,我们深入分析了现有的印地语AE数据集,并解释了模型性能差的原因。然后,我们提出通过手动翻译SemEval-2014 ABSA语料库(Pontiki et al., 2014)来创建平行语料库。我们提供了创建此平行语料期间所面临的详细指导方针和挑战。实验表明,我们的数据集无论是基线模型还是最先进的模型,均取得了比现有的印地语数据集更好的性能。最后,我们利用SemEval-2014语料库在我们创建的数据集中使用多语言BERT的基线和SoTA神经模型,用印地语执行zero-shot和微调方面提取。
  因此,本文的主要贡献如下:

  • 提供现有印地语AE数据集的深入定性和定量分析;
  • 通过将SemEval 2014语料库翻译成印地语,创建一个新的印地语属性提取资源;
  • 提供与创建本语料库相关的详细指南和挑战,并解释翻译和标注的质量;
  • 使用SOTA的神经序列标记模型,评估新的数据集,在单语和多语环境中使用迁移学习,用印地语进行属性提取
      我们认为本文构造的新语料是一个更健壮、更具有代表性的印度语属性抽取数据集。并且,它的并行特性可以用于大量的下游任务,包括、评论翻译、跨语言意见挖掘和基于属性的情感抽取。
2 Dataset Development
2.1 Analyzing Existing Datasets

此小节主要介绍了原Hindi数据集和SemEval数据集的对比情况。

2.2 Constructing the Parallel Corpus

  我们通过翻译SemEval 2014 ABSA 的餐厅和笔记本电脑评论的情感分析数据集(Pontiki et al., 2014)构建了一个平行语料库。此翻译构建的数据集可以用作独立的印地语数据集,或者利用英语数据集进行属性提取。通过使用下面提供的准则,我们能够保持原始数据集的句法结构的多样性,使定量比较更具代表性。
  最终构建的数据集包含5,989个句子和5,864个属性词。为了保证 自然性和流畅性,并不是所有的句子都可以被翻译成印地语。下面讨论了与翻译和属性抽取的指导方针。

Annotation Guidelines

  创建这个平行语料库的指导方针有两个方面,一是将数据集翻译成印地语,二是在翻译中识别属性词。
  为完成这项任务而采用的翻译方法必须兼顾流畅、准确和风格。翻译后的评论文本不仅在语义上要尽可能地与原始评论相似,而且还必须忠实于印地语中餐馆和技术评论的风格。为了达到这种风格的自然翻译,我们提出以下翻译准则:

2.3 Dataset Analysis

   在本节中,我们利用一些评级指标对新构造的数据集进行评估。对于翻译性能,我们在翻译人员之间比较ROUGE-L分数,而对于标注任务,我们使用Fleiss ’ Kappa度量。

3 Evaluating the Dataset

   在本节中,我们将详细介绍对已翻译的属性提取数据集的评估。我们使用多种单语言和多语言模型评估我们的数据集。单语模型在单个语言数据集上进行训练和测试,而多语模型涉及使用从SemEval-2014数据集到我们创建的数据集的迁移学习。

3.1 Monolingual Aspect Extraction

   我们使用以下基线对现有的Hindi数据集、原Hindi数据集,以及SemEval 2014数据集进行评估:

  • CRF
  • BiLSTM
  • BiLSTM-CRF

此外, 我们还使用以下神经模型进行分析:

  • BiLSTM-CNN-CRF
  • DeCNN
  • Seq2Seq4ATE
    对比实验结果如下图所示:
    在这里插入图片描述
3.2 Leveraging Parallel Data

   我们设计了三个实验来使用M-BERT评估我们的数据集,具体如下。

  • M-BERT baseline
  • Zero shot aspect extraction for Hindi
  • Fine tuned aspect extraction for Hindi
    实验比对结果如下图所示:

在这里插入图片描述

这篇关于13. Enhancing Aspect Extraction Hindi 阅读笔记的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/309737

相关文章

Java进阶13讲__第12讲_1/2

多线程、线程池 1.  线程概念 1.1  什么是线程 1.2  线程的好处 2.   创建线程的三种方式 注意事项 2.1  继承Thread类 2.1.1 认识  2.1.2  编码实现  package cn.hdc.oop10.Thread;import org.slf4j.Logger;import org.slf4j.LoggerFactory

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

数学建模笔记—— 非线性规划

数学建模笔记—— 非线性规划 非线性规划1. 模型原理1.1 非线性规划的标准型1.2 非线性规划求解的Matlab函数 2. 典型例题3. matlab代码求解3.1 例1 一个简单示例3.2 例2 选址问题1. 第一问 线性规划2. 第二问 非线性规划 非线性规划 非线性规划是一种求解目标函数或约束条件中有一个或几个非线性函数的最优化问题的方法。运筹学的一个重要分支。2

【C++学习笔记 20】C++中的智能指针

智能指针的功能 在上一篇笔记提到了在栈和堆上创建变量的区别,使用new关键字创建变量时,需要搭配delete关键字销毁变量。而智能指针的作用就是调用new分配内存时,不必自己去调用delete,甚至不用调用new。 智能指针实际上就是对原始指针的包装。 unique_ptr 最简单的智能指针,是一种作用域指针,意思是当指针超出该作用域时,会自动调用delete。它名为unique的原因是这个

查看提交历史 —— Git 学习笔记 11

查看提交历史 查看提交历史 不带任何选项的git log-p选项--stat 选项--pretty=oneline选项--pretty=format选项git log常用选项列表参考资料 在提交了若干更新,又或者克隆了某个项目之后,你也许想回顾下提交历史。 完成这个任务最简单而又有效的 工具是 git log 命令。 接下来的例子会用一个用于演示的 simplegit

记录每次更新到仓库 —— Git 学习笔记 10

记录每次更新到仓库 文章目录 文件的状态三个区域检查当前文件状态跟踪新文件取消跟踪(un-tracking)文件重新跟踪(re-tracking)文件暂存已修改文件忽略某些文件查看已暂存和未暂存的修改提交更新跳过暂存区删除文件移动文件参考资料 咱们接着很多天以前的 取得Git仓库 这篇文章继续说。 文件的状态 不管是通过哪种方法,现在我们已经有了一个仓库,并从这个仓

忽略某些文件 —— Git 学习笔记 05

忽略某些文件 忽略某些文件 通过.gitignore文件其他规则源如何选择规则源参考资料 对于某些文件,我们不希望把它们纳入 Git 的管理,也不希望它们总出现在未跟踪文件列表。通常它们都是些自动生成的文件,比如日志文件、编译过程中创建的临时文件等。 通过.gitignore文件 假设我们要忽略 lib.a 文件,那我们可以在 lib.a 所在目录下创建一个名为 .gi