Enhanced Multi-Channel Graph Convolutional Network for Aspect Sentiment Triplet Extraction论文阅读

本文主要是介绍Enhanced Multi-Channel Graph Convolutional Network for Aspect Sentiment Triplet Extraction论文阅读,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Enhanced Multi-Channel Graph Convolutional Network for Aspect Sentiment Triplet Extraction (2022 ACL)

参考博客: https://blog.csdn.net/qq_40887846/article/details/125136661
Enhanced Multi-Channel Graph Convolutional Network for Aspect Sentiment Triplet Extraction
用于方面情感三元组提取的增强型多通道图卷积网络 (2022 ACL)
论文地址: https://aclanthology.org/2022.acl-long.212.pdf
论文代码: https://github.com/CCChenhao997/EMCGCN-ASTE

个人阅读笔记, 水平有限,如有错误欢迎指正交流

1. 介绍

1.1 研究目标

Aspect Sentiment Triplet Extraction(ASTE)是一种新兴的情感分析任务。目的是从给定的句子中提取方面术语意见术语,并确定目标意见对的情感极性
在这里插入图片描述

图1:给出了一个带有依赖树的句子来说明ASTE任务。在三元组集合中,方面术语、观点术语分别以蓝色和黄色突出显示。积极的情绪极性以红色突出显示,而消极的情绪极性以绿色突出显示。

1.1.1 如何利用词与词之间的各种关系来帮助ASTE任务?(这里主要是讲方面术语和意见术语的关系)

以图1为例: 对于词对(“gourmet”、“food”),“gourmet"和"food"属于相同一个方面术语"gourmet food”。同样地,对于词对(“food”,“delicious”),“food"是"delicious"的意见术语并且被赋予积极的情感极性。因此,为了有效地提取意见术语"delicious”,我们期望"delicious"能够获得"food"的信息,反之亦然。为了判断意见术语的情感极性,意见术语"delicious"的信息应该被递送到"food"。简而言之,我们需要学习基于单词之间关系的任务相关的单词表征。

1.1.2 如何利用语言特征来帮助ASTE任务?(词性关系和句法依存)

  1. 我们观察到方面术语“gourmet food”和“service”是名词,而意见术语“delicious”和“poor”是形容词。因此,由名词和形容词组成的词对倾向于形成方面-意见术语对。(这里主要说的是词性关系)
  2. 从图1中的句法依存关系树,不同的依存关系类型存在于词对中。例如,“gourmet”和“food”包括复合名词,因为它们之间的依存关系类型是“compound”,而“food”由于类型“nsubj”而成为“delicious”的名词性主语。因此,这些依赖关系类型不仅可以帮助提取方面和意见术语,而且还可以帮助它们的配对。此外,我们考虑了基于树和相对位置的距离,描述了两个词的相关性。(这里主要讲的是句法依存关系)

1.2 科学问题

大多数现有的研究集中在设计一个新的标记方案,使模型提取的情感三元组在端到端的方式。然而,这些方法忽略了ASTE任务中单词之间的关系。

1.3 本文方法

本文提出了一个增强的多通道图卷积网络模型(EMCGCN),以充分利用词之间的关系。
具体来说,我们首先定义了ASTE任务的10种类型的关系(表1),然后采用双仿射注意模块嵌入这些关系作为相邻张量在句子中的单词之间。之后,我们的EMC-GCN将句子转换成一个多通道图,通过将单词和关系相邻张量分别作为节点和边处理。因此可以学习关系感知节点表示。此外,我们考虑不同的语言特征,以增强我们的EMC-GCN模型。最后,我们设计了一个有效的细化策略EMC-GCN的词对表示细化,它考虑了隐含的结果方面和意见提取时,确定词对是否匹配或不匹配。

1.4 创新点/贡献

  1. 针对ASTE任务提出了一种新的EMC-GCN模型。EMC-GCN利用多通道图来编码单词之间的关系。多通道图上的卷积函数被应用于学习关系感知节点表示。
  2. 我们提出了一种新的方法来充分挖掘语言特征,以增强我们的基于GCN的模型,包括词性组合句法依赖类型,句子中每个词对的基于树的距离相对位置距离
  3. 对于精炼词对表示我们提出了一个有效的精炼策略。当检查方面意见术语是否配对是,它考虑到了隐式的方面和意见提取的结果。
  4. 我们在基准数据集上进行了广泛的实验。实验结果表明了EMC-GCN模型的有效性。

2. 任务案例

在这里插入图片描述

图1:给出了一个带有依赖树的句子来说明ASTE任务。在三元组集合中,方面术语、观点术语分别以蓝色和黄色突出显示。积极的情绪极性以红色突出显示,而消极的情绪极性以绿色突出显示。

3. 模型架构

在这里插入图片描述

图2:我们的端到端模型EMC-GCN的整体体系结构。

3.1 任务定义

给定具有 n n n个单词的输入句子 X = { w 1 , w 2 , ⋅ ⋅ ⋅ , w n } X = \{w1,w2,· · ·,wn\} X={w1w2⋅⋅⋅wn},模型的目标是输出一组三元组 T = { ( a , o , s ) m } ∣ T ∣ m = 1 T = \{(a,o,s)_m\}^|T|_{m=1} T={(aos)m}Tm=1,其中 a a a o o o分别表示方面项和意见项。给定方面的情感极性 s s s属于情感标签集 S = { p o s , n e g , n e u } S = \{pos,neg,neu\} S={posnegneu}。也就是说,情感标签集包括三个情感极性:积极、中立和消极。句子X的总数为 ∣ T ∣ |T| T三元组。

3.2 关系定义和表格填写

似曾相识, 和GTS论文很像,但是论文说这是GTS的进化版本。
在一个句子中的ASTE任务, 我们定义了10种类型的关系。这些关系如表1所示。
四个关系或标签 { B − A , I − A , B − O , I − O } \{B-A,I-A,B-O,I-O\} {BA,IA,BO,IO}旨在提取方面术语和观点术语。
在这里插入图片描述

表1:我们定义的十个关系的含义。注意,这些关系也可以被视为标签。
在这里插入图片描述

图3:用于句子中的三元组提取的表格填充。每个单元格表示具有关系或标签的词对。有关关系的定义,请参阅表1。

3.3 三元组解码

为了简单起见,我们使用上三角表来解码三元组。(因为table是对称矩阵)

  1. 基于主对角线使用的预测关系的所有词对 ( w i , w i ) (wi,wi) (wiwi),提取方面的方面术语和意见术语。(基于主对角线找到方面意见术语)
  2. 需要判断提取的方面术语和意见术语是否匹配。特别地,对于方面术语 a a a和意见术语 o o o,我们统计所有词对 ( w i , w j ) (wi,wj) (wiwj)的预测关系,其中 w i ∈ a w_i \in a wia w j ∈ o w_j \in o wjo。如果在预测的关系中存在任何情感关系,则认为方面术语和观点术语是配对的,否则这两者不配对。(如何配对)
  3. 为了判断方面-意见对的情感极性,最预测的情感关系 s ∈ S s \in S sS被视为情感极性。至此, 我们收集一个三元组 ( a , o , s ) (a,o,s) (aos)

4. EMC-GCN Model

4.1 输入和编码层 (感觉这里可以通过分词提升模型的效果)

利用BERT作为句子编码器来提取隐藏的上下文表示。给定输入句子 X = { w 1 , w 2 , … w n } X = \{w_1,w_2,…w_n\} X={w1w2wn},在最后一个Transformer块的编码层输出隐藏表示序列 H = { h 1 , h 2 , … h n } H = \{h_1,h_2,…h_n\} H={h1h2hn}

4.2 双仿射注意模块 (双MLP)

利用双仿射注意模块来捕获句子中每个词对的关系概率分布,双仿射注意在句法依赖分析中已被证明是有效的。双仿射注意过程被公式化为。(这里的双仿射就是双MLP不要被名字吓到了)
在这里插入图片描述

其中使用多层感知器。得分向量 r i , j ∈ R 1 × m r_{i,j} \in R^{1×m} ri,jR1×m w i w_i wi w j w_j wj之间的关系进行建模, m m m是关系类型的数量, r i , j , k r_{i,j,k} ri,j,k表示词对 ( w i , w j ) (wi,wj) (wiwj)的第k种关系类型的得分。邻接张量 R ∈ R n × n × m R\in R^{n×n×m} RRn×n×m描述单词之间的关系,每个通道对应一种关系类型。 U 1 U_1 U1 U 2 U_2 U2和B是可训练的权重和偏置。 ⊕ \oplus 表示连接。公式(5)收集公式(1)到(4)的过程。

4.3 多通道GCN

为了对单词之间的各种关系进行建模,我们的EMC-GCN扩展了vanilla GCN,其中多通道邻接张量 R b a ∈ R n × n × m R^{ba}\in R^{n×n×m} RbaRn×n×m由上述双仿射注意模块构建。邻接张量的每个通道表示在表1中定义的单词之间的关系的建模。然后,我们利用一个GCN聚合信息沿着每个节点的每个通道。我们将该过程公式化如下。
在这里插入图片描述

其中 R : , : , k b a ∈ R n × n R^{ba}_{:,:,k} \in R^{n×n} R:,:,kbaRn×n表示 R b a R^{ba} Rba的第 k ¥个信道切片。 k¥个信道切片。 k个信道切片。W_k 和 和 b_k 是可学习的权重和偏差。 σ 是激活函数(例如, R e L U )。平均池化函数 是可学习的权重和偏差。σ是激活函数(例如,ReLU)。平均池化函数 是可学习的权重和偏差。σ是激活函数(例如,ReLU)。平均池化函数f(·)$应用于所有通道的节点隐藏表示。

4.4 语法特征

在这里插入图片描述

我们为每个词对引入了四种类型的语言特征,如图4所示,包括词性组合、句法依赖类型、基于树的距离和相对位置距离。
1.句法依赖类型,我们为每个词对 ( w i , w i ) (wi,wi) (wiwi)添加自依赖类型。特别是,我们基于这些特征随机初始化四个邻接张量,即 R p s c R^{psc} Rpsc R d e p R^{dep} Rdep R t b d R^{tbd} Rtbd R r p d R^{rpd} Rrpd。以句法依赖类型特征为例。如果在 w i wi wi w j wj wj之间存在依赖弧,并且依赖类型是 n s u b j nsubj nsubj,则 R i , j , : d e p R^{dep}_{i,j,:} Ri,j,:dep通过查找可训练的嵌入表被初始化为 n s u b j nsubj nsubj的嵌入;否则,我们初始化 R i , j , : d e p R^{dep}_{i,j,:} Ri,j,:dep一个 m m m维零向量随后,使用这些邻接张量重复图卷积运算以获得节点表示 H p s c H^{psc} Hpsc H d e p H^{dep} Hdep H t b d H^{tbd} Htbd H r p d H^{rpd} Hrpd。最后,我们分别将平均池化函数和级联操作形式化地应用于所有节点表示和所有边。
在这里插入图片描述

其中 H = { h 1 , h 2 , . . . , h n } H = \{h_1,h_2,...,h_n\} H={h1h2...hn} R = { r 1 , 1 , r 1 , 2 , … r n , n } R = \{r_{1,1},r_{1,2},…r_{n,n}\} R={r1,1r1,2rn,n}表示词对的节点表示和边表示。

4.5 关系约束

为了精确地捕捉单词之间的关系,我们对从仿射模块模获得的相邻张量施加约束,即
在这里插入图片描述

其中 I ( ⋅ ) I(·) I()表示指示符函数, y i j y_{ij} yij是词对 ( w i , w j ) (wi,wj) (wiwj)的真实标签,并且 C C C表示关系集。同样,我们施加的关系约束的四个相邻的张量产生的语言特征。约束成本表示为 L p s c L_{psc} Lpsc L d e p L_{dep} Ldep L t b d L_{tbd} Ltbd L r p d L_{rpd} Lrpd

4.6 细化策略和预测层

为了获得用于标签预测的词对 ( w i , w j ) (wi,wj) (wiwj)的表示,我们将它们的节点表示hi,hj和它们的边缘表示rij连接起来。此外,由分类器链(Read等人,2011)方法在多标签分类任务中的应用,设计了一种有效的细化策略,该策略在判断词对是否匹配时考虑了方面术语和意见术语的隐式结果。具体地,假设 w i w_i wi是方面术语中的词并且 w j w_j wj是观点术语中的词,则词对 ( w i , w j ) (wi,wj) (wiwj)更可能被预测为情感关系,即, P O S POS POS N E U NEU NEU N E G NEG NEG。否则,它们不太可能匹配。因此,我们引入 r i i r_{ii} rii r j j r_{jj} rjj来细化词对 ( w i , w j ) (wi,wj) (wiwj)的表示 s i j s_{ij} sij,即,
在这里插入图片描述

最后,我们将词对表示 s i j s_{ij} sij馈送到线性层中,随后是 s o f t m a x softmax softmax函数以产生标签概率分布 p i j p_{ij} pij,即,

其中 W p W_p Wp b p b_p bp是可学习的权重和偏差。
在这里插入图片描述

4.7 损失函数

我们的目标是最小化目标函数
在这里插入图片描述

其中系数 α α α β β β用于调整对应关系约束损失的影响。标准交叉熵损失 L p L_p Lp用于ASTE任务,即,

5. 实验结果

5.1 对比实验

在这里插入图片描述

表3: D1的实验结果(Wu等人,2020a)。所有基线结果均来自原始论文。

在这里插入图片描述

表4:D2的实验结果(Xu等人,2020年)。“”表示结果来自Xu et al.(2020年)。“†”表示我们使用发布的代码和数据集上的原始参数来重现模型。

5.2 消融实验

对论文提出的改进进行消融实验。
分别是十种关系,语义特征,关系约束,以及细化策略
在这里插入图片描述

表5:D2消融研究的F1评分。

细化策略。
在这里插入图片描述

表6:D2上三种情感关系的Fl分数。

这篇关于Enhanced Multi-Channel Graph Convolutional Network for Aspect Sentiment Triplet Extraction论文阅读的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/382816

相关文章

多头注意力机制(Multi-Head Attention)

文章目录 多头注意力机制的作用多头注意力机制的工作原理为什么使用多头注意力机制?代码示例 多头注意力机制(Multi-Head Attention)是Transformer架构中的一个核心组件。它在机器翻译、自然语言处理(NLP)等领域取得了显著的成功。多头注意力机制的引入是为了增强模型的能力,使其能够从不同的角度关注输入序列的不同部分,从而捕捉更多层次的信息。 多头注意力机

ssh在本地虚拟机中的应用——解决虚拟机中编写和阅读代码不方便问题的一个小技巧

虚拟机中编程小技巧分享——ssh的使用 事情的起因是这样的:前几天一位工程师过来我这边,他看到我在主机和虚拟机运行了两个vscode环境,不经意间提了句:“这么艰苦的环境写代码啊”。 后来我一想:确实。 我长时间以来都是直接在虚拟机里写的代码,但是毕竟是虚拟机嘛,有时候编辑器没那么流畅,在文件比较多的时候跳转很麻烦,容易卡住。因此,我当晚简单思考了一下,想到了一个可行的解决方法——即用ssh

康奈尔大学之论文审稿模型Reviewer2及我司七月对其的实现(含PeerRead)

前言 自从我司于23年7月开始涉足论文审稿领域之后「截止到24年6月份,我司的七月论文审稿GPT已经迭代到了第五版,详见此文的8.1 七月论文审稿GPT(从第1版到第5版)」,在业界的影响力越来越大,所以身边朋友如发现业界有相似的工作,一般都会第一时间发给我,比如本部分要介绍的康奈尔大学的reviewer2 当然,我自己也会各种看类似工作的论文,毕竟同行之间的工作一定会互相借鉴的,我们会学他们

芯片后端之 PT 使用 report_timing 产生报告如何阅读

今天,就PT常用的命令,做一个介绍,希望对大家以后的工作,起到帮助作用。 在PrimeTime中,使用report_timing -delay max命令生成此报告。switch -delay max表示定时报告用于设置(这是默认值)。 首先,我们整体看一下通过report_timing 运行之后,报告产生的整体样式。 pt_shell> report_timing -from start_

【论文精读】分类扩散模型:重振密度比估计(Revitalizing Density Ratio Estimation)

文章目录 一、文章概览(一)问题的提出(二)文章工作 二、理论背景(一)密度比估计DRE(二)去噪扩散模型 三、方法(一)推导分类和去噪之间的关系(二)组合训练方法(三)一步精确的似然计算 四、实验(一)使用两种损失对于实现最佳分类器的重要性(二)去噪结果、图像质量和负对数似然 论文:Classification Diffusion Models: Revitalizing

【python】python葡萄酒国家分布情况数据分析pyecharts可视化(源码+数据集+论文)【独一无二】

👉博__主👈:米码收割机 👉技__能👈:C++/Python语言 👉公众号👈:测试开发自动化【获取源码+商业合作】 👉荣__誉👈:阿里云博客专家博主、51CTO技术博主 👉专__注👈:专注主流机器人、人工智能等相关领域的开发、测试技术。 python葡萄酒国家分布情况数据分析pyecharts可视化(源码+数据集+论文)【独一无二】 目录 python葡

论文阅读--Efficient Hybrid Zoom using Camera Fusion on Mobile Phones

这是谷歌影像团队 2023 年发表在 Siggraph Asia 上的一篇文章,主要介绍的是利用多摄融合的思路进行变焦。 单反相机因为卓越的硬件性能,可以非常方便的实现光学变焦。不过目前的智能手机,受制于物理空间的限制,还不能做到像单反一样的光学变焦。目前主流的智能手机,都是采用多摄的设计,一般来说一个主摄搭配一个长焦,为了实现主摄与长焦之间的变焦,目前都是采用数字变焦的方式,数字变焦相比于光学

【LLM之KG】CoK论文阅读笔记

研究背景 大规模语言模型(LLMs)在许多自然语言处理(NLP)任务中取得了显著进展,特别是在零样本/少样本学习(In-Context Learning, ICL)方面。ICL不需要更新模型参数,只需利用几个标注示例就可以生成预测。然而,现有的ICL和链式思维(Chain-of-Thought, CoT)方法在复杂推理任务上仍存在生成的推理链常常伴随错误的问题,导致不真实和不可靠的推理结果。

【python】python基于akshare企业财务数据对比分析可视化(源码+数据集+论文)【独一无二】

👉博__主👈:米码收割机 👉技__能👈:C++/Python语言 👉公众号👈:测试开发自动化【获取源码+商业合作】 👉荣__誉👈:阿里云博客专家博主、51CTO技术博主 👉专__注👈:专注主流机器人、人工智能等相关领域的开发、测试技术。 系列文章目录 目录 系列文章目录一、设计要求二、设计思路三、可视化分析 一、设计要求 选取中铁和贵州茅

AIGC-Animate Anyone阿里的图像到视频 角色合成的框架-论文解读

Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation 论文:https://arxiv.org/pdf/2311.17117 网页:https://humanaigc.github.io/animate-anyone/ MOTIVATION 角色动画的