【论文阅读】Feature Pyramid Grids

本文主要是介绍【论文阅读】Feature Pyramid Grids，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

作为剑指 FPN 的新作，难不成将来要取代 FPN ？拭目以待... ArXiv 链接： https://arxiv.org/abs/2004.03580

一、摘要

特征金字塔网络 (FPN) 在目标检测领域得到了广泛的应用，以改进特征表示以更好地处理尺度变化。本文提出了一种深层的多路径金字塔 —— 特征金字塔网格 (FPG)，它将特征尺度空间表示为融合了多向横向连接的而自底向上平行路径的规则网格。FPG 可以显著提高单路特征金字塔网络的性能，同时具有相似的计算成本，突出了深层金字塔表示的重要性。除了其一般的和统一的结构、用神经结构搜索发现的过于复杂的结构外，它还可以在不依赖搜索的情况下与这些方法进行比较。我们希望 FPG 具有统一有效的特性，可以作为未来目标识别工作的有力组成部分。

主要考虑：(1) FPG 是否能够在复杂性成本低于 FPN 的情况下得到改善； (2) 即使是在系统设计的情况下，FPG 是否能够与 NAS 优化的金字塔结构竞争。

二、网络结构

与 FPN 不同，FPG 的独立通路均是自下而上构建，类似于从输入图像到预测输出的主干通路。为形成一个深层网格的特征金字塔，无论是跨尺度的，还是尺度范围内的，金字塔通道与各类横向连接交织，从而实现各层次的信息交换。如图1所示，存在4 种横向连接，分别是：AcrossSame → (蓝色实线)、AcrossUp ↗ (紫色实线)、AcrossDown↘ (绿色实线)、AcrossSkip (橙色虚线) 。

2.1 Backbone pathway (主干通路)

主干通路可以是用于图像分类的任何卷积神经网络的层次特征表示。该通路与 FPN 中自下而上的通路相同。它从输入图像到输出的逐步缩小尺度特征映射。在 FPN 中，相同尺度的特征张量属于一个网络阶段，特征张量的空间步长从前到后逐渐增大。

2.2 Pyramid pathways (金字塔通路)

众所周知，骨干网络层次越深，越接近分类层，从而语义信息更加丰富，但相应空间分辨率更低，而浅层特征与语义的相关性较弱，但因分辨率高从而定位精度也更高。金字塔通路旨在建立同时强语义信息的精细分辨率特征。

Multiple pyramid pathways (多金字塔通路)

FPG 通过多个 p>1 平行的金字塔通道进行扩展。旨在通过多个平行金字塔通路丰富网络能力，从而构建一个具有跨空间维度的精细分辨率和高分辨能力的强大网络。作者通过自底向上的方式构建金字塔通路，与主干通道平行 (第一个最高分辨率的金字塔特征取自相应的主干阶段) 。金字塔通路中的连接表示为向上。多个通路的存在是 FPG 概念的关键 (图1)，因为它允许网络建立更强的金字塔特征。为形成一个深层的金字塔网格，p 个金字塔通道与各种横向连接交织在一起。

Low channel capacity (低通道容量)

降低通道容量能够实现金字塔通道轻量化。金字塔的通道数量显著低于主干通路最后阶层的通道数。权重层的计算成本 (浮点数操作 or FLOPs) 与其通道维数(即宽度)的平方成比例。故减少金字塔通道的通道容量可提升多个通道的计算效率。

2.3 Lateral connections (横向连接)

横向连接旨在利用尺度空间中的多向(语义)信息流丰富特征，允许复杂的层次特征跨尺度学习。根据横向连接的起始和结束特征阶段，可将横向连接分为 4 类，即图 1 展示的： AcrossSame → (蓝色实线)、AcrossUp ↗ (紫色实线)、AcrossDown ↘ (绿色实线)、AcrossSkip (橙色虚线)。

三、实现方式

3.1 Backbone pathway (主干通路)

主通道是主对流网络的前馈计算，它计算一个由若干尺度的特征映射组成的特征层次结构。以ResNet[10]为例，采用与FPN相同的方案，使用每个阶段最后剩余块的输出特征映射来表示金字塔级别，表示为 {C2,C3,C4,C5}。

3.2 Pyramid pathways (金字塔通路)

与主干通路相似，金字塔通路代表跨尺度的信息。从最高分辨率阶段到最低分辨率阶段，以自底向上的方式构建它们。首先，该通路的第一特征图由对应的高分辨率主干或金字塔级通过 1×1 横向卷积连接实现。其次，下采样后使用步长 2 的 3×3 卷积，在金字塔路径中创建各个较低层次的特征图。因此在各金字塔通路中，特征层次由多尺度的特征图构成，且各阶段的空间分辨率与主干通路一致。