本文主要是介绍Receptive Field Block Net for Accurate and FastObject Detection,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
这篇文章主要是模拟人类视觉感受野的一些性质, 设计RFB结构加入SSD, 提升了速度与精度。
上图是人类群体感受野的size和eccentricity(离心率,这里我理解为离心半径)的关系。 可以看到离中心越远, 感受野大小越大,=右图是一个形象的图示。因此自然地, 我们想要设计一个特征提取模块, 模拟人类感受野的这种性质。
作者基于Inception设计了RFB(Receptive Field Block)。具体设计如下:
多分支是Inception自身的设计结构, 不过这里将每个分支的卷积核设计的不同, 在每个卷积后面, 加上不同rate的膨胀卷积,这二者就可以模仿上述人类感受野的特征。
上图是两种设计的RFB结构, 其中RFB-s是模拟人类视网膜浅层感受野, 用3*1和1*3来代替3*3卷积, 并使用了更多的分支。它将用于网络浅层高分辨率低语义特征后面。
整个网络框架如下, 基于SSD结构:
其中RFB Stride 2代表RFB模块中卷积的步长为2。 conv10_2和conv11_2没必要再加RFB了, 因为分辨率很低了, 不足以再支持5*5的感受野了。
小结:文章的RFB结构设计来源很有趣, 模拟人类感受野的特点, 这种多分支、离心越远, kernel越大的设计也许可以一试。
这篇关于Receptive Field Block Net for Accurate and FastObject Detection的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!