本文主要是介绍CapsNet个人理解与总结,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
前言
CapsNet为解决CNN的缺点而生。其实回过头来再想一下神经网络和CNN这一系列的模型,他们放佛一直在强调特征的识别,通过什么样的方法能够更准确高效的识别图像的特征,就像CapsNet一直在强调他们的Net具有方向、大小等属性的识别和内部联系的生成一样。从这里我感觉出一些顶级Paper的魅力和特点所在,那就是从提出的创新点出发,所有的论点围绕创新点,所有的依据站在巨人的肩膀,解决前人没有解决的问题。那么这样对于读者来说,理解起来就不会很困难。创新点贯穿整篇文章,非常条理清晰,非常有说服力,确实值得我们去研读,去学习。
出发点
CNN是非常善于捕捉特征是否存在,因为CNN的卷积结构就是为此而设计,但是在探索特征属性之间的关系(比如相对位置关系、相对大小关系等,特征的方向)上,CNN力不从心。比如在下面第一幅图中,CNN对于两幅图的识别效果都是人脸,显然这是不正确的。从人类的视觉是别来说,人脸的各个部位都是有相对大小和位置关系的,人的多层视觉系统对于某一固定点的识别过程类似于解析树,从这一点出发,论文应用了前人提出的Capsule。
Capsule理解
Capsule是一组捕获特定特征各种参数的神经元,包括输出特征的可能性,文章通过应用一个非线性保证矢量输出的长度不超过1,这个非线性保持矢量的方向不变。我们将胶囊的输出向量称为活动向量,向量的长度表示检测特征的概率,向量的方向方向代表其参数(属性)。
比如,下面的第一行表示神经元检测数字“7”的概率。2-D Capsule通过组合2个神经元形成,该Capsule在检测数字“7”时会输出一个2维向量。
Capsule与传统neuron比较
参数更新
Capsule里面有两种参数,更新算法如下:
- W_ij: 通过BP算法更新。
- c_ij :通过routing-by-agreement更新,capsule论文中的方法是该原则的其中一种实现方法。
新颖的激活函数
使用一个非线性"squashing" 函数来将短矢量缩小到几乎为零,而长矢量缩小到略低于1的长度。
CapsNet网络结构
CapsNet是常规卷积层与capsule版全连接层的结合体,整体架构如下:
这篇关于CapsNet个人理解与总结的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!