GoogLeNet阅读笔记

2024-03-19 15:48

文章标签 笔记阅读 googlenet

本文主要是介绍GoogLeNet阅读笔记，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

论文地址

摘要

提出了一种名为GoogLeNet的深度神经网络，该神经网络共有22层。在保证预算不变的情况下，增加了网络的深度和广度，架构设计时基于Hebbian principle和多尺度处理。

引言

目前该领域大部分的进步不仅仅是更强大的硬件、更大的数据集和更大的模型的结果，而是新思想、算法和改进的网络架构的结果。

Motivation and High Level Considerations

增加神经网络性能最直接的方法是增加它的深度和宽度，但其有两个弊端：**网络尺寸越大训练的参数就越多，过拟合就更容易发生；另一个弊端是计算资源会急剧增加。
解决这两个问题的一个基本方法是引入稀疏性，并用稀疏层替换完全连接的层，甚至在卷积内部也是如此。如果数据集的概率分布可以用一个大型的、非常稀疏的深度神经网络来表示，那么通过分析前一层激活和聚类输出高度相关的神经元的相关统计数据，可以逐层构建最优的网络拓扑。（Arora et al.）

架构细节

为了避免patch-alignment问题，只采用卷积核1，3，5。此外，将池化层与卷积层并行操作。初版的Inception结构如下：
在这里插入图片描述
对上图做以下说明：
1 . 采用不同大小的卷积核意味着不同大小的感受野，最后拼接意味着不同尺度特征的融合；
2 . 之所以卷积核大小采用1、3和5，主要是为了方便对齐。设定卷积步长stride=1之后，只要分别设定pad=0、1、2，那么卷积之后便可以得到相同维度的特征，然后这些特征就可以直接拼接在一起了；
3 . 文章说很多地方都表明pooling挺有效，所以Inception里面也嵌入了。
4 . 网络越到后面，特征越抽象，而且每个特征所涉及的感受野也更大了，因此随着层数的增加，3x3和5x5卷积的比例也要增加。
缺点：由于池化层的输出与卷积层的输出合并，必然会导致各阶段输出数量的增加，使得计算效率会很低。所以可以采用降维的方法减少计算参数。（使用5x5的卷积核仍然会带来巨大的计算量。）为此，文章借鉴NIN2，采用1x1卷积核来进行降维。
例如：上一层的输出为100x100x128，经过具有256个输出的5x5卷积层之后(stride=1，pad=2)，输出数据为100x100x256。其中，卷积层的参数为128x5x5x256。假如上一层输出先经过具有32个输出的1x1卷积层，再经过具有256个输出的5x5卷积层，那么最终的输出数据仍为为100x100x256，但卷积参数量已经减少为128x1x1x32 + 32x5x5x256，大约减少了4倍。
改进后的Inception为：
在这里插入图片描述

GoogLeNet

所有的卷积层，包括Inception模块，均使用rectified linear activation。网络详细参数如下：
在这里插入图片描述
网络结构如下：

对于该网络结构做如下说明：
1 . 显然GoogLeNet采用了模块化的结构，方便增添和修改；
2 . 网络最后采用了average pooling来代替全连接层，想法来自NIN,事实证明可以将TOP1 accuracy提高0.6%。但是，实际在最后还是加了一个全连接层，主要是为了方便以后大家finetune；
3 . 虽然移除了全连接，但是网络中依然使用了Dropout ;
4 . 为了避免梯度消失，网络额外增加了2个辅助的softmax用于向前传导梯度。文章中说这两个辅助的分类器的loss应该加一个衰减系数，但看caffe中的model也没有加任何衰减。此外，实际测试的时候，这两个额外的softmax会被去掉。