【胶囊网络-CapsNet】Investigating Capsule Networks with Dynamic Routing for Text Classification

本文主要是介绍【胶囊网络-CapsNet】Investigating Capsule Networks with Dynamic Routing for Text Classification,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Investigating Capsule Networks with Dynamic Routing for Text Classification

发表在EMNLP 2018

文章目录

  • Model
    • N-gram convolutional layer
    • primary capsule layer
      • Child-Parent Relationships
    • Dynamic Routing
    • convolutional capsule layer
    • fully connected capsule layer

  1. CNN 在对空间信息进行建模时,需要对特征检测器进行复制,降低了模型的效率
  2. CNN 空间不敏感的方法不可避免地受限于丰富的文本结构(比如保存单词的位置信息、语义信息、语法结构等),难以有效地进行编码且缺乏文本表达能力

Capsule Network 由hinton提出,用神经元向量代替传统神经网络的单个神经元节点,以 Dynamic Routing 的方式去训练这种全新的神经网络,有效地改善了上述两类方法的缺点。

本文是capsNet在文本分类上的应用,并针对文本分类任务提出了三个策略减少背景或者噪音胶囊对网络的影响。

  1. Orphan Category:在胶囊网络的最后一层,引入 Orphan 类别,它可以捕捉一些背景知识,比如停用词。在视觉任务加入 Orphan 类别效果比较有限,因为图片的背景在训练和测试集里往往是多变的。然而,在文本任务,停用词比较一致,比如谓词和代词等。
  2. Leaky-Softmax:除了在最后一层引入 Orphan 类别,中间的连续卷积层也需要引入去噪机制。对比 Orphan 类别,Leaky-Softmax 是一种轻量的去噪方法,它不需要额外的参数和计算量。
  3. 路由参数修正:传统的路由参数,通常用均与分布进行初始化,忽略了下层胶囊的概率。相反,我们把下层胶囊的概率当成路由参数的先验,改进路由过程。

在 6 个 benchmarks 上进行了实验,Capsule Network 在其中 4 个中取得了最好结果。

同事,在多标签迁移的任务上(fromsingle-label to multi-label text classification),Capsule Network 的性能远远地超过了 CNN 和 LSTM

Model

模型包含四层,

  1. N-gram convolutional layer
  2. primary capsule layer
  3. convolutional capsule layer
  4. fully connected capsule layer

N-gram convolutional layer

这是标准的卷积层,对于每一个卷积,窗口大小 K 1 × v K_1\times v K1×v
m i a = f ( x i : i + K 1 − 1 ∘ W a + b 0 ) m^a_i = f(x_{i:i+K_1-1} \circ W^a + b_0) mia=f(xi:i+K11Wa+b0)
其中, x ∈ R L ∗ V , x i ∈ R V , W a ∈ R K 1 ∗ v , m a ∈ R L − K 1 + 1 x \in R^{L*V}, x_i \in R^V, W^a \in R^{K_1*v}, m^a \in R^{L-K_1+1} xRLV,xiRV,WaRK1v,maRLK1+1,V是词向量维度。

卷积核通道数为B,卷积层输出:
M = [ m 1 , m 2 , . . . m B ] ∈ R ( L − K 1 + 1 ) × B M = [m_1, m_2,... m_B] \in R^{(L-K_1+1) \times B} M=[m1,m2,...mB]R(LK1+1)×B

primary capsule layer

第一层胶囊网络。
p i = g ( W b M i + b 1 ) g ( s j ) = ∣ ∣ s j ∣ ∣ 2 1 + ∣ ∣ s ∣ ∣ 2 s j ∣ ∣ s j ∣ ∣ p_i = g(W^bM_i + b_1) \\ g(s_j) = \frac{||s_j||^2}{1+||s||^2} \frac{s_j}{||s_j||} pi=g(WbMi+b1)g(sj)=1+s2sj2sjsj
其中: W b ∈ R B × d , M i ∈ R B , i ∈ ( 1 , L − K 1 + 1 ) W^b \in R^{B \times d}, M_i \in R^{B}, i \in (1, L-K_1+1) WbRB×d,MiRB,i(1,LK1+1),g是squash函数。

通道数设置为C,即:
P = [ p 1 , p 2 , . . . P C ] ∈ R ( L − K 1 + 1 ) × C × d P = [p_1, p_2, ...P_C] \in R^{(L-K_1+1) \times C \times d} P=[p1,p2,...PC]R(LK1+1)×C×d
最终输出为 ( L − K 1 + 1 ) × C (L-K_1+1) \times C (LK1+1)×C个维度为d的胶囊。

Child-Parent Relationships

在胶囊网络层之间就会存在Child-Parent关系,本文尝试了两种transformation。

  • 共享权重,对于每一个parent胶囊,共享权重 W j t 1 W^{t_1}_j Wjt1
    • u ^ = W j t 1 u i + b j ∣ i \hat{u} = W_j^{t_1} u_i + b_{j|i} u^=Wjt1ui+bji,其中 u i u_i ui是每个child-capsule。
    • 参数量: N ∗ d ∗ d N*d*d Ndd
  • 非共享权重,对于每一个parent胶囊j,child胶囊i,有
    • u ^ = W j ∣ i t 1 u i + b j ∣ i \hat{u} = W_{j|i}^{t_1} u_i + b_{j|i} u^=Wjit1ui+bji
    • 参数量: H ∗ N ∗ d ∗ d H*N*d*d HNdd,parent胶囊N个,child胶囊H个。

Dynamic Routing

通过动态路由算法学习获得child胶囊对parent胶囊的权重,动态的加强或减弱权重,优于会丢失位置信息的max pooling算法。同事本文针对文本分类任务提出了三个策略优化CapsNet:

  1. Orphan Category:在胶囊网络的最后一层,引入 Orphan 类别,它可以捕捉一些背景知识,比如停用词。在视觉任务加入 Orphan 类别效果比较有限,因为图片的背景在训练和测试集里往往是多变的。然而,在文本任务,停用词比较一致,比如谓词和代词等。

  2. Leaky-Softmax:除了在最后一层引入 Orphan 类别,中间的连续卷积层也需要引入去噪机制。对比 Orphan 类别,Leaky-Softmax 是一种轻量的去噪方法,它不需要额外的参数和计算量。

  3. 路由参数修正:传统的路由参数,通常用均与分布进行初始化,忽略了下层胶囊的概率。相反,我们把下层胶囊的概率当成路由参数的先验,改进路由过程。

在这里插入图片描述

原始Dynamic Routing:

在这里插入图片描述

convolutional capsule layer

fully connected capsule layer

这篇关于【胶囊网络-CapsNet】Investigating Capsule Networks with Dynamic Routing for Text Classification的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/456179

相关文章

Linux 网络编程 --- 应用层

一、自定义协议和序列化反序列化 代码: 序列化反序列化实现网络版本计算器 二、HTTP协议 1、谈两个简单的预备知识 https://www.baidu.com/ --- 域名 --- 域名解析 --- IP地址 http的端口号为80端口,https的端口号为443 url为统一资源定位符。CSDNhttps://mp.csdn.net/mp_blog/creation/editor

ASIO网络调试助手之一:简介

多年前,写过几篇《Boost.Asio C++网络编程》的学习文章,一直没机会实践。最近项目中用到了Asio,于是抽空写了个网络调试助手。 开发环境: Win10 Qt5.12.6 + Asio(standalone) + spdlog 支持协议: UDP + TCP Client + TCP Server 独立的Asio(http://www.think-async.com)只包含了头文件,不依

poj 3181 网络流,建图。

题意: 农夫约翰为他的牛准备了F种食物和D种饮料。 每头牛都有各自喜欢的食物和饮料,而每种食物和饮料都只能分配给一头牛。 问最多能有多少头牛可以同时得到喜欢的食物和饮料。 解析: 由于要同时得到喜欢的食物和饮料,所以网络流建图的时候要把牛拆点了。 如下建图: s -> 食物 -> 牛1 -> 牛2 -> 饮料 -> t 所以分配一下点: s  =  0, 牛1= 1~

poj 3068 有流量限制的最小费用网络流

题意: m条有向边连接了n个仓库,每条边都有一定费用。 将两种危险品从0运到n-1,除了起点和终点外,危险品不能放在一起,也不能走相同的路径。 求最小的费用是多少。 解析: 抽象出一个源点s一个汇点t,源点与0相连,费用为0,容量为2。 汇点与n - 1相连,费用为0,容量为2。 每条边之间也相连,费用为每条边的费用,容量为1。 建图完毕之后,求一条流量为2的最小费用流就行了

poj 2112 网络流+二分

题意: k台挤奶机,c头牛,每台挤奶机可以挤m头牛。 现在给出每只牛到挤奶机的距离矩阵,求最小化牛的最大路程。 解析: 最大值最小化,最小值最大化,用二分来做。 先求出两点之间的最短距离。 然后二分匹配牛到挤奶机的最大路程,匹配中的判断是在这个最大路程下,是否牛的数量达到c只。 如何求牛的数量呢,用网络流来做。 从源点到牛引一条容量为1的边,然后挤奶机到汇点引一条容量为m的边

配置InfiniBand (IB) 和 RDMA over Converged Ethernet (RoCE) 网络

配置InfiniBand (IB) 和 RDMA over Converged Ethernet (RoCE) 网络 服务器端配置 在服务器端,你需要确保安装了必要的驱动程序和软件包,并且正确配置了网络接口。 安装 OFED 首先,安装 Open Fabrics Enterprise Distribution (OFED),它包含了 InfiniBand 所需的驱动程序和库。 sudo

【机器学习】高斯网络的基本概念和应用领域

引言 高斯网络(Gaussian Network)通常指的是一个概率图模型,其中所有的随机变量(或节点)都遵循高斯分布 文章目录 引言一、高斯网络(Gaussian Network)1.1 高斯过程(Gaussian Process)1.2 高斯混合模型(Gaussian Mixture Model)1.3 应用1.4 总结 二、高斯网络的应用2.1 机器学习2.2 统计学2.3

网络学习-eNSP配置NAT

NAT实现内网和外网互通 #给路由器接口设置IP地址模拟实验环境<Huawei>system-viewEnter system view, return user view with Ctrl+Z.[Huawei]undo info-center enableInfo: Information center is disabled.[Huawei]interface gigabit

【Python报错已解决】AttributeError: ‘list‘ object has no attribute ‘text‘

🎬 鸽芷咕:个人主页  🔥 个人专栏: 《C++干货基地》《粉丝福利》 ⛺️生活的理想,就是为了理想的生活! 文章目录 前言一、问题描述1.1 报错示例1.2 报错分析1.3 解决思路 二、解决方法2.1 方法一:检查属性名2.2 步骤二:访问列表元素的属性 三、其他解决方法四、总结 前言 在Python编程中,属性错误(At

Golang 网络爬虫框架gocolly/colly(五)

gcocolly+goquery可以非常好地抓取HTML页面中的数据,但碰到页面是由Javascript动态生成时,用goquery就显得捉襟见肘了。解决方法有很多种: 一,最笨拙但有效的方法是字符串处理,go语言string底层对应字节数组,复制任何长度的字符串的开销都很低廉,搜索性能比较高; 二,利用正则表达式,要提取的数据往往有明显的特征,所以正则表达式写起来比较简单,不必非常严谨; 三,使