本文主要是介绍13. Enhancing Aspect Extraction Hindi 阅读笔记,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
Enhancing Aspect Extraction Hindi
ACL 2021
作者:Arghya Bhattacharya, Alok Debnath and Manish Shrivastava
单位:International Institute of Information Technology, Hyderabad (IIIT-H)
Abstract
属性抽取在印度语言并不是一个被充分探索的任务,只有一个公开的数据集Hindi.在本文中,我们就现存数据集在属性抽取方面的质量、大小、稀疏性和性能进行了分析。为了给属性抽取提供一个更好的基线模型,我们翻译了SemEval 2014基于属性的情感分析的数据集,并且人工标注了翻译之后数据集中的属性词。我们为这项任务提供了严格的指导方针和可复制的方法。我们使用标注者之间的协议评分,定量评估翻译和标注。并且,我们还在单语言和多语言设置中,使用SOTA的神经属性抽取模型评估新构造的数据集。结果显示:模型在新构造的数据集取得了优于原数据集的性能。为此,我们将新构造的数据集作为印度语属性抽取的黄金数据集(gold-standard)。
1 Introduction
最近的文献显示,在细粒度的NLP下游任务,出现了越来越多的研究。细粒度分析的一种常见方法是使用属性信息。属性词是一个感兴趣的实体,它标识一个
预定义主题或领域的独特属性。【1】例如:在餐馆领域“service”和“seasoning”是属性词。属性抽取经常被看作是细粒度情感分析的一个子任务,最近的论文将其看作是一个独立的任务,也可以作为其它任务的下游任务,如摘要,特定主题的信息检索(如意见挖掘等)。
属性抽取任务的数据集和模型为多种语言开发。SemEval 2014 2015 2016中的ABSA任务是一个共享的任务,并且也作为Twitter和SemEval 2017的一个子任务。这些任务产生了各种语言,如阿拉伯语、中文、荷兰语、法语、俄语、西班牙语和土耳其语。每一个单语言数据集由一个或两个领域构成,每个语言的数据集总共有介于4000到9000个句子之间(包括测试集和训练集)。对于印地语,有一些研究者已做了相关工作。
除了开发单一数据集之外,在改善印地语AE和ABSA的状态方面已经做了有限的工作,即Akhtar等人(2016)。现有的评估表明,与英语AE以及类似的印地语序列标注任务(如命名实体识别(NER)和事件检测相比,现有的序列标注模型(通用的和特定的AE)在该数据集上的表现非常差。
在本文中,我们深入分析了现有的印地语AE数据集,并解释了模型性能差的原因。然后,我们提出通过手动翻译SemEval-2014 ABSA语料库(Pontiki et al., 2014)来创建平行语料库。我们提供了创建此平行语料期间所面临的详细指导方针和挑战。实验表明,我们的数据集无论是基线模型还是最先进的模型,均取得了比现有的印地语数据集更好的性能。最后,我们利用SemEval-2014语料库在我们创建的数据集中使用多语言BERT的基线和SoTA神经模型,用印地语执行zero-shot和微调方面提取。
因此,本文的主要贡献如下:
- 提供现有印地语AE数据集的深入定性和定量分析;
- 通过将SemEval 2014语料库翻译成印地语,创建一个新的印地语属性提取资源;
- 提供与创建本语料库相关的详细指南和挑战,并解释翻译和标注的质量;
- 使用SOTA的神经序列标记模型,评估新的数据集,在单语和多语环境中使用迁移学习,用印地语进行属性提取
我们认为本文构造的新语料是一个更健壮、更具有代表性的印度语属性抽取数据集。并且,它的并行特性可以用于大量的下游任务,包括、评论翻译、跨语言意见挖掘和基于属性的情感抽取。
2 Dataset Development
2.1 Analyzing Existing Datasets
此小节主要介绍了原Hindi数据集和SemEval数据集的对比情况。
2.2 Constructing the Parallel Corpus
我们通过翻译SemEval 2014 ABSA 的餐厅和笔记本电脑评论的情感分析数据集(Pontiki et al., 2014)构建了一个平行语料库。此翻译构建的数据集可以用作独立的印地语数据集,或者利用英语数据集进行属性提取。通过使用下面提供的准则,我们能够保持原始数据集的句法结构的多样性,使定量比较更具代表性。
最终构建的数据集包含5,989个句子和5,864个属性词。为了保证 自然性和流畅性,并不是所有的句子都可以被翻译成印地语。下面讨论了与翻译和属性抽取的指导方针。
Annotation Guidelines
创建这个平行语料库的指导方针有两个方面,一是将数据集翻译成印地语,二是在翻译中识别属性词。
为完成这项任务而采用的翻译方法必须兼顾流畅、准确和风格。翻译后的评论文本不仅在语义上要尽可能地与原始评论相似,而且还必须忠实于印地语中餐馆和技术评论的风格。为了达到这种风格的自然翻译,我们提出以下翻译准则:
-
对于英语中的专有名词和其他名称,如地点、公司名称和其他命名实体,要求翻译者直接使用罗马文字。例如:布鲁克林,第二大街,索尼。我们发现,两个领域中的专有名词都表示了主题的属性,而很少表示方面的属性,因此使用罗马文字可以帮助属性提取,而不会对属性提取或其他下游任务造成问题。
-
对于没有印地语翻译的普通名词,或者翻译非常模糊,不常用的,翻译者被要求将这些名词翻译成印地语。这样做是为了在使用可以作为印度语句子的属性的技术术语时保持一致性,同时保持翻译句子的特定领域的自然和流畅性。键盘、蓝牙、显示器、清酒和酱油等词被音译成印地语。
-
属性描述通常包含习惯结构或其他成分短语。翻译人员被要求简化这些短语的意思,而不是逐字翻译。因此,像“在鼻子上”这样的短语被翻译成yathaarth(意思是“明显的”)而不是naak ke upar(字面意思是“在鼻子上或在上面”)
-
对于具有性别和数字变化的常见名词,翻译者被要求音译词根(如规则(6)中提到的),使用印地语变化标记。由于英语的代词和名词没有性别标记,所以只要适用,就使用默认的男性屈折。对于具有性别和数字变化的常见名词,注释者被要求音译词根(如规则(2)中提到的),但使用印地语变化标记。由于英语的代词和名词没有性别标记,所以只要适用,就使用默认的男性。
-
对于所有其他的单词,属性和属性的描述,翻译成印地语使用最常用的单词给定适当的上下文。如果上下文太少,无法用保留意思的方式翻译句子,那就不要翻译句子。
翻译结束后,交由另一组进行属性标注。属性标注规则同SemEval2014 的标注规则一致。Annotation Methodology
Pontiki et al.(2014)数据集中的每句话都由四名翻译人员翻译,其中两名本科生和两名研究生。所有翻译人员年龄在18至22岁之间,会讲印地语和英语。然后将翻译后的句子提供给另外两个标注者,用于属性抽取任务。在印地语和英语的专业知识方面,这些注释者在相同的年龄组和相同的组成。
翻译分两个阶段进行:属性感知翻译(aspect-aware)和属性盲翻译(aspect-blind)。在属性感知的翻译中,译者在翻译句子时被提供了属性术语,并在保持上述翻译规则的同时尽可能保留译文中的多个属性。在属性盲翻译中,只给译者提供要翻译的句子,没有附加说明。这两阶段的翻译是为了确定翻译的流畅性和自然性,无论是否有保留属性的限制。该数据集包含注释的最流畅版本,以及SemEval数据集中维护来自源句子的大部分属性的标注。
这些翻译的句子被提供给最后的标注者,他们被要求根据上面提供的指导方针来识别这些句子中的属性。这与源句(数据集中提供的)中提取的属性的直接翻译相比较。Challenges in Annotation
下面详细介绍翻译这些数据的一些主要挑战。
-
翻译中最常见的问题是习语等语义结构。
-
句式中的双关语和侧面句式是最大的挑战。
-
被省略的表述是译者所关心的问题。
-
印地语句法具有相对自由的词序,名词短语和动词短语分别被形容词和副词分隔开。在这种情况下,属性感知翻译和属性盲翻译通常是不同的,因为属性感知翻译不是碎片化的,但根据注释者的说法,通常也是不自然的。
-
某些方面术语仅根据上下文进行翻译,而数据中并不总是提供上下文。
由于数据集翻译中的这些挑战,以及缺乏上下文来做出自然流畅的信息翻译,一些句子和方面无法翻译成印地语。因此,印地语数据集的句子要比英语数据集少一些。最终翻译的数据集由5,989个句子和5,864个方面术语组成。
2.3 Dataset Analysis
在本节中,我们利用一些评级指标对新构造的数据集进行评估。对于翻译性能,我们在翻译人员之间比较ROUGE-L分数,而对于标注任务,我们使用Fleiss ’ Kappa度量。
3 Evaluating the Dataset
在本节中,我们将详细介绍对已翻译的属性提取数据集的评估。我们使用多种单语言和多语言模型评估我们的数据集。单语模型在单个语言数据集上进行训练和测试,而多语模型涉及使用从SemEval-2014数据集到我们创建的数据集的迁移学习。
3.1 Monolingual Aspect Extraction
我们使用以下基线对现有的Hindi数据集、原Hindi数据集,以及SemEval 2014数据集进行评估:
- CRF
- BiLSTM
- BiLSTM-CRF
此外, 我们还使用以下神经模型进行分析:
- BiLSTM-CNN-CRF
- DeCNN
- Seq2Seq4ATE
对比实验结果如下图所示:
3.2 Leveraging Parallel Data
我们设计了三个实验来使用M-BERT评估我们的数据集,具体如下。
- M-BERT baseline
- Zero shot aspect extraction for Hindi
- Fine tuned aspect extraction for Hindi
实验比对结果如下图所示:
这篇关于13. Enhancing Aspect Extraction Hindi 阅读笔记的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!