深度学习论文阅读笔记 | MemNetIAN情感分析论文EMNLP 2016

2023-10-15 03:59

本文主要是介绍深度学习论文阅读笔记 | MemNetIAN情感分析论文EMNLP 2016,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

深度学习论文阅读笔记 | MemNet&IAN情感分析论文EMNLP 2016

在这里插入图片描述

嗨,我是error。

这又是我的一个新系列,主要记录我阅读过的一些论文的笔记,与大家一起分享讨论,不定期更新,若有错误欢迎随时指出。


泛读

在这里插入图片描述

首先说一下整一篇论文的结构,这篇论文作者从MemNet汲取灵感,应用在多情感分类问题上面,结合注意力模型和定位取得了不错的成绩,达到了当时的SOTA。

论文的核心我也已经在思维导图中标记出来了,主要是在注意力模型和定位上面。

Abstract

We introduce a deep memory network for aspect level sentiment classification. Un- like feature-based SVM and sequential neu- ral models such as LSTM, this approach ex- plicitly captures the importance of each con- text word when inferring the sentiment polar- ity of an aspect. Such importance degree and text representation are calculated with multi- ple computational layers, each of which is a neural attention model over an external mem- ory. Experiments on laptop and restaurant datasets demonstrate that our approach per- forms comparable to state-of-art feature based SVM system, and substantially better than LSTM and attention-based LSTM architec- tures. On both datasets we show that mul- tiple computational layers could improve the performance. Moreover, our approach is also fast. The deep memory network with 9 lay- ers is 15 times faster than LSTM with a CPU implementation.

摘要在对比了经典的SVM和LSTM模型后提到了自己这个模型的优点:

1.准确率高,目前的SOTA

2.运行速度快,即使九层依旧比LSTM快15倍

3.模型更稳定,在分析极性情感时更robust

Introduction

这一个part举了一个例子:

“great food but the service was dreadful!”

这是一个很典型的例子,首先是涉及到两个aspect,其次是两个aspect的评分极性完全相反。十分考验模型的分析准确度。

Despite these advantages, conventional neural
models like long short-term memory (LSTM) (Tang et al., 2015a) capture context information in an im- plicit way, and are incapable of explicitly exhibit- ing important context clues of an aspect.

紧接着作者分析了传统LSTM的缺点,不能够很明确的定位到决定这个aspect的情感词。

Each layer is a content- and location- based attention model, which first learns the importance/weight of each context word and then utilizes this information to calculate continu- ous text representation.

然后作者点出了自己模型的一个架构,即共享参数,打通分析信息的屏障。

As every component is differentiable, the entire model could be efficiently trained end-to- end with gradient descent, where the loss function is the cross-entropy error of sentiment classification

还有一些简要的介绍。


精读

首先看下整个模型的结构示意图
在这里插入图片描述

整个模型是借鉴了End-to-end MemNet的结构,
在这里插入图片描述

首先将aspect词提取出来后将剩下的句子和aspect都转化为vector,注意这里的embedding参数是共享学习的,没有区分。

It is helpful to note that the parameters of attention
and linear layers are shared in different hops. There- fore, the model with one layer and the model with nine layers have the same number of parameters.

如果aspect词量不同如何解决,作者也给出了方案,就是取平均,为了方便,下面的内容都以单个aspect词为例

If aspect is a single word like “food” or “service”, aspect representation is the embedding of aspect word. For the case where aspect is multi word expression like “battery life”, aspect represen- tation is an average of its constituting word vectors (Sun et al., 2015).

3.3 Content Attention

在这里插入图片描述

接下来的重点为Content Attention,通过一个0-1的权重a来调节注意力,而a又是通过一个softmax(g)求得,g则是通过一个对线性层非线性tanh激活所得到的。

在这里插入图片描述
在这里插入图片描述

这里作者总结了这个模型的两个优点,即

One advantage is that this model could adaptively assign an importance score to each piece of memory mi according to its semantic relatedness with the aspect. Another advantage is that this at- tention model is differentiable, so that it could be easily trained together with other components in an end-to-end fashion.

1.可根据aspect自动调整在每个memory的注意力

2.受益于此模型结果,此模型可以快速融合与其他模块在一起训练。

3.4 Location Attention

本模型另一个亮点为定位注意力模型,一般来说离这个词越近,注意力就应该越大,此模型也符合这样的认知。作者同时给出了四个注意力策略供选择。

4.4 Effects of Location Attention

在这里插入图片描述

可见定位注意力模型对准确定位对应的情感词有很大帮助

但在多个hop上跑的时候发现只有在5之后才略显优势

在这里插入图片描述


小总结

本篇论文从记忆网络的架构得到灵感将它应用到多情感分类问题上面,最终取得了当时的SOTA。此模型最显著的优势我觉得有两个,一个是面对多aspect的情感分析上很robust,这得益于location attention的功劳。其次是速度,是的,还记得开头作者提到的吗?即使是9层hop都要比LSTM快15倍,这个速度的提升是十分可怕的。究其原因是作者在hop上面的巧妙结构上,没有采用LSTM一层套一层的结构而是相对独立的一个个hop,即保证了效果也大大提高了速度。

如果你也想下载原文来看看,为了防止链接安全性,关注微信公众号【error13】并回复IAN即可免费获得链接。

在这里插入图片描述
在这里插入图片描述

这篇关于深度学习论文阅读笔记 | MemNetIAN情感分析论文EMNLP 2016的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/215211

相关文章

Spring Boot Interceptor的原理、配置、顺序控制及与Filter的关键区别对比分析

《SpringBootInterceptor的原理、配置、顺序控制及与Filter的关键区别对比分析》本文主要介绍了SpringBoot中的拦截器(Interceptor)及其与过滤器(Filt... 目录前言一、核心功能二、拦截器的实现2.1 定义自定义拦截器2.2 注册拦截器三、多拦截器的执行顺序四、过

C++ scoped_ptr 和 unique_ptr对比分析

《C++scoped_ptr和unique_ptr对比分析》本文介绍了C++中的`scoped_ptr`和`unique_ptr`,详细比较了它们的特性、使用场景以及现代C++推荐的使用`uni... 目录1. scoped_ptr基本特性主要特点2. unique_ptr基本用法3. 主要区别对比4. u

SQL 注入攻击(SQL Injection)原理、利用方式与防御策略深度解析

《SQL注入攻击(SQLInjection)原理、利用方式与防御策略深度解析》本文将从SQL注入的基本原理、攻击方式、常见利用手法,到企业级防御方案进行全面讲解,以帮助开发者和安全人员更系统地理解... 目录一、前言二、SQL 注入攻击的基本概念三、SQL 注入常见类型分析1. 基于错误回显的注入(Erro

Nginx内置变量应用场景分析

《Nginx内置变量应用场景分析》Nginx内置变量速查表,涵盖请求URI、客户端信息、服务器信息、文件路径、响应与性能等类别,这篇文章给大家介绍Nginx内置变量应用场景分析,感兴趣的朋友跟随小编一... 目录1. Nginx 内置变量速查表2. 核心变量详解与应用场景3. 实际应用举例4. 注意事项Ng

Java多种文件复制方式以及效率对比分析

《Java多种文件复制方式以及效率对比分析》本文总结了Java复制文件的多种方式,包括传统的字节流、字符流、NIO系列、第三方包中的FileUtils等,并提供了不同方式的效率比较,同时,还介绍了遍历... 目录1 背景2 概述3 遍历3.1listFiles()3.2list()3.3org.codeha

Java枚举类型深度详解

《Java枚举类型深度详解》Java的枚举类型(enum)是一种强大的工具,它不仅可以让你的代码更简洁、可读,而且通过类型安全、常量集合、方法重写和接口实现等特性,使得枚举在很多场景下都非常有用,本文... 目录前言1. enum关键字的使用:定义枚举类型什么是枚举类型?如何定义枚举类型?使用枚举类型:2.

Java中Redisson 的原理深度解析

《Java中Redisson的原理深度解析》Redisson是一个高性能的Redis客户端,它通过将Redis数据结构映射为Java对象和分布式对象,实现了在Java应用中方便地使用Redis,本文... 目录前言一、核心设计理念二、核心架构与通信层1. 基于 Netty 的异步非阻塞通信2. 编解码器三、

Java HashMap的底层实现原理深度解析

《JavaHashMap的底层实现原理深度解析》HashMap基于数组+链表+红黑树结构,通过哈希算法和扩容机制优化性能,负载因子与树化阈值平衡效率,是Java开发必备的高效数据结构,本文给大家介绍... 目录一、概述:HashMap的宏观结构二、核心数据结构解析1. 数组(桶数组)2. 链表节点(Node

Java 虚拟线程的创建与使用深度解析

《Java虚拟线程的创建与使用深度解析》虚拟线程是Java19中以预览特性形式引入,Java21起正式发布的轻量级线程,本文给大家介绍Java虚拟线程的创建与使用,感兴趣的朋友一起看看吧... 目录一、虚拟线程简介1.1 什么是虚拟线程?1.2 为什么需要虚拟线程?二、虚拟线程与平台线程对比代码对比示例:三

Nginx分布式部署流程分析

《Nginx分布式部署流程分析》文章介绍Nginx在分布式部署中的反向代理和负载均衡作用,用于分发请求、减轻服务器压力及解决session共享问题,涵盖配置方法、策略及Java项目应用,并提及分布式事... 目录分布式部署NginxJava中的代理代理分为正向代理和反向代理正向代理反向代理Nginx应用场景