CapsNet个人理解与总结

2024-02-17 16:32
文章标签 总结 理解 个人 capsnet

本文主要是介绍CapsNet个人理解与总结,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前言

CapsNet为解决CNN的缺点而生。其实回过头来再想一下神经网络和CNN这一系列的模型,他们放佛一直在强调特征的识别,通过什么样的方法能够更准确高效的识别图像的特征,就像CapsNet一直在强调他们的Net具有方向、大小等属性的识别和内部联系的生成一样。从这里我感觉出一些顶级Paper的魅力和特点所在,那就是从提出的创新点出发,所有的论点围绕创新点,所有的依据站在巨人的肩膀,解决前人没有解决的问题。那么这样对于读者来说,理解起来就不会很困难。创新点贯穿整篇文章,非常条理清晰,非常有说服力,确实值得我们去研读,去学习。

出发点

CNN是非常善于捕捉特征是否存在,因为CNN的卷积结构就是为此而设计,但是在探索特征属性之间的关系(比如相对位置关系、相对大小关系等,特征的方向)上,CNN力不从心。比如在下面第一幅图中,CNN对于两幅图的识别效果都是人脸,显然这是不正确的。从人类的视觉是别来说,人脸的各个部位都是有相对大小和位置关系的,人的多层视觉系统对于某一固定点的识别过程类似于解析树,从这一点出发,论文应用了前人提出的Capsule。

  例如,对于下面这幅图的识别过程:
  一个简单的CNN模型可以正确地提取鼻子,眼睛和嘴巴的特征,但是提取出来的特征会错误地激活神经元,得出脸部检测成功的结果。
  如果我们**将每个特征的概率标量表示替换成一个代表很多信息的向量,如,输出的不再是标量x,而是一个包含[可能性,方向,大小]的向量,那么我们就可以检测鼻子,眼睛和耳朵特征之间的方向和大小的一致性**, 得出最后的结论。

Capsule理解

Capsule是一组捕获特定特征各种参数的神经元,包括输出特征的可能性,文章通过应用一个非线性保证矢量输出的长度不超过1,这个非线性保持矢量的方向不变。我们将胶囊的输出向量称为活动向量,向量的长度表示检测特征的概率,向量的方向方向代表其参数(属性)。
  比如,下面的第一行表示神经元检测数字“7”的概率。2-D Capsule通过组合2个神经元形成,该Capsule在检测数字“7”时会输出一个2维向量。

  第二行中,输出的2维向量为v=(0, 0.9)和 v=(0, 0.3),大小表示为:√(0^2+0.9^2 )=0.9 和 :√(0^2+0.3^2 )=0.3;第三行中,输出的2维向量为v=(0.2, 0.87)和 v=(0.2, 0.19),向量的大小仍为0.9和0.3。在这里,我们随意给的0.2代表其向右旋转20度。当然,我们可以再添加两个神经元来捕捉特征的大小和笔画的粗细程度。

Capsule与传统neuron比较

参数更新

Capsule里面有两种参数,更新算法如下:

  • W_ij: 通过BP算法更新。
  • c_ij :通过routing-by-agreement更新,capsule论文中的方法是该原则的其中一种实现方法。
新颖的激活函数

使用一个非线性"squashing" 函数来将短矢量缩小到几乎为零,而长矢量缩小到略低于1的长度。

CapsNet网络结构

CapsNet是常规卷积层与capsule版全连接层的结合体,整体架构如下:

  第一层就是普通的CNN层,起像素级局部特征检测作用。原图像是28×28大小第一层采用256个9×9的卷积核,步长为1,得到输出矩阵大小为20×20×256。   第二层叫做PrimaryCaps层。PrimaryCaps层的计算过程具有多种理解方式,其中之一为,8个并行的常规卷积层的叠堆。
  矩阵的shape变换过程如图所示:
  第二层中每一步的详解如图所示:
  接下来,将第二层的输出转换成16×10维的向量组,得到第三层。在经过两个全连接和一个Sigmoid层,得到输出。

这篇关于CapsNet个人理解与总结的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/718357

相关文章

Qt实现网络数据解析的方法总结

《Qt实现网络数据解析的方法总结》在Qt中解析网络数据通常涉及接收原始字节流,并将其转换为有意义的应用层数据,这篇文章为大家介绍了详细步骤和示例,感兴趣的小伙伴可以了解下... 目录1. 网络数据接收2. 缓冲区管理(处理粘包/拆包)3. 常见数据格式解析3.1 jsON解析3.2 XML解析3.3 自定义

Python实现图片分割的多种方法总结

《Python实现图片分割的多种方法总结》图片分割是图像处理中的一个重要任务,它的目标是将图像划分为多个区域或者对象,本文为大家整理了一些常用的分割方法,大家可以根据需求自行选择... 目录1. 基于传统图像处理的分割方法(1) 使用固定阈值分割图片(2) 自适应阈值分割(3) 使用图像边缘检测分割(4)

Windows Docker端口占用错误及解决方案总结

《WindowsDocker端口占用错误及解决方案总结》在Windows环境下使用Docker容器时,端口占用错误是开发和运维中常见且棘手的问题,本文将深入剖析该问题的成因,介绍如何通过查看端口分配... 目录引言Windows docker 端口占用错误及解决方案汇总端口冲突形成原因解析诊断当前端口情况解

深入理解Apache Kafka(分布式流处理平台)

《深入理解ApacheKafka(分布式流处理平台)》ApacheKafka作为现代分布式系统中的核心中间件,为构建高吞吐量、低延迟的数据管道提供了强大支持,本文将深入探讨Kafka的核心概念、架构... 目录引言一、Apache Kafka概述1.1 什么是Kafka?1.2 Kafka的核心概念二、Ka

java常见报错及解决方案总结

《java常见报错及解决方案总结》:本文主要介绍Java编程中常见错误类型及示例,包括语法错误、空指针异常、数组下标越界、类型转换异常、文件未找到异常、除以零异常、非法线程操作异常、方法未定义异常... 目录1. 语法错误 (Syntax Errors)示例 1:解决方案:2. 空指针异常 (NullPoi

Java反转字符串的五种方法总结

《Java反转字符串的五种方法总结》:本文主要介绍五种在Java中反转字符串的方法,包括使用StringBuilder的reverse()方法、字符数组、自定义StringBuilder方法、直接... 目录前言方法一:使用StringBuilder的reverse()方法方法二:使用字符数组方法三:使用自

使用DeepSeek搭建个人知识库(在笔记本电脑上)

《使用DeepSeek搭建个人知识库(在笔记本电脑上)》本文介绍了如何在笔记本电脑上使用DeepSeek和开源工具搭建个人知识库,通过安装DeepSeek和RAGFlow,并使用CherryStudi... 目录部署环境软件清单安装DeepSeek安装Cherry Studio安装RAGFlow设置知识库总

Python依赖库的几种离线安装方法总结

《Python依赖库的几种离线安装方法总结》:本文主要介绍如何在Python中使用pip工具进行依赖库的安装和管理,包括如何导出和导入依赖包列表、如何下载和安装单个或多个库包及其依赖,以及如何指定... 目录前言一、如何copy一个python环境二、如何下载一个包及其依赖并安装三、如何导出requirem

Rust格式化输出方式总结

《Rust格式化输出方式总结》Rust提供了强大的格式化输出功能,通过std::fmt模块和相关的宏来实现,主要的输出宏包括println!和format!,它们支持多种格式化占位符,如{}、{:?}... 目录Rust格式化输出方式基本的格式化输出格式化占位符Format 特性总结Rust格式化输出方式

Python中连接不同数据库的方法总结

《Python中连接不同数据库的方法总结》在数据驱动的现代应用开发中,Python凭借其丰富的库和强大的生态系统,成为连接各种数据库的理想编程语言,下面我们就来看看如何使用Python实现连接常用的几... 目录一、连接mysql数据库二、连接PostgreSQL数据库三、连接SQLite数据库四、连接Mo