Res2Net: A New Multi-scale Backbone Architecture(多尺度骨干网络)

本文主要是介绍Res2Net: A New Multi-scale Backbone Architecture(多尺度骨干网络)，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

Res2Net: A New Multi-scale Backbone Architecture

Shang-Hua Gao∗, Ming-Ming Cheng∗, Kai Zhao, Xin-Y u Zhang, Ming-Hsuan Y ang, and Philip T orr

多尺度特征的抽象表示对于许多视觉任务都具有重要意义。骨干卷积神经网络（CNNs）的最新进展不断显示出更强的多尺度表示能力，从而在广泛的应用中获得一致的性能增益。然而，大多数现有的方法以分层方式表示多尺度特征。在本文中，我们提出了一种新的CNN构造块，即Res2Net，它是通过在一个剩余块内构造分层的类剩余连接来实现的。Res2Net在粒度级别上表示多尺度特征，并增加每个网络层的接收场范围。建议的Res2Net块可以插入最新的主干CNN模型，例如ResNet、ResNeXt和DLA。我们在所有这些模型上评估Res2Net块，并在广泛使用的数据集（如CIFAR-100和ImageNet）上展示了与基线模型相比的一致性能增益。对具有代表性的计算机视觉任务，即目标检测、类激活映射和显著目标检测的进一步消融研究和实验结果进一步验证了Res2Net相对于最新基线方法的优越性。源代码和经过训练的模型可以在https://mmcheng.net/res2net/上找到。

源码地址：https://github.com/gasvn/Res2Net

指数项多尺度，深度学习。

1简介

如图1所示，视觉模式在自然场景中以多尺度出现。首先，物体可能以不同的尺寸出现在一个图像中，例如，沙发和杯子的尺寸是不同的。其次，对象的基本上下文信息可能占据比对象本身大得多的区域。例如，我们需要依赖于大桌子作为上下文来更好地判断放在它上面的小黑点是杯子还是笔筒。第三，感知不同尺度的信息对于理解细粒度分类和语义分割等任务的部分和对象是必不可少的。因此，为视觉认知任务的多尺度刺激设计良好的特征至关重要，包括图像分类[28]、目标检测[43]、注意预测[45]、目标跟踪[63]、动作识别[46]、语义分割[6]、显著目标检测[2]、[24]、目标建议[12]、[43]，骨架提取[67]、立体匹配[42]和边缘检测[37]、[57]。

图1：多尺度表示对于各种视觉任务是必不可少的，例如感知目标对象的边界、区域和语义类别。即使对于最简单的识别任务，从非常不同的尺度感知信息对于理解部件、对象（例如，本例中的沙发、桌子和杯子）及其周围环境（例如，“桌上”环境有助于识别黑色斑点）也是必不可少的。

毫不奇怪，多尺度特征在传统特征设计[1]、[39]和深度学习[10]、[51]中都得到了广泛的应用。在视觉任务中获得多尺度表示需要特征抽取器使用大量的接受域来描述不同尺度下的对象/部件/上下文。卷积神经网络（CNNs）通过一堆卷积算子自然地学习粗到细的多尺度特征。CNNs固有的多尺度特征提取能力为解决众多视觉任务提供了有效的表示方法。如何设计更高效的网络体系结构是进一步提高CNNs性能的关键

在过去的几年中，一些骨干网络，如[10]，[15]、[23]、[25]、[26]、[28]、[47]、[51]、[56]、[60]在许多视觉任务中都取得了显著的进步，表现出了最佳状态。早期的架构如AlexNet[28]和VGGNet[47]堆栈卷积算子，使得多尺度特征的数据驱动学习成为可能。随后，通过使用具有不同内核大小的conv层（例如inceptionnts[50]、[51]、[52]）、剩余模块（例如ResNet[23]）、快捷连接（例如DenseNet[26]）和分层聚合（例如DLA[60]）来提高多尺度能力的效率。主干CNN体系结构的发展已经显示出一种更有效和高效的多尺度表示的趋势。

在这项工作中，我们提出了一种简单而有效的多尺度处理方法。不同于现有的增强方法CNNs的分层多尺度表示强度，提高了CNNs在更细粒度层次上的多尺度表示能力。与文献[5]、[9]、[11]提出的利用不同分辨率特征提高多尺度能力的方法不同，本文提出的多尺度方法是指在更精细的层次上有多个可用的感受野。为了实现这个目标，我们用一组更小的滤波器组替换n个通道的3×3滤波器1，每个滤波器组都有w个通道（在不丧失通用性的情况下，我们使用n=s×w）。如图2所示，这些较小的滤波器组以类似于层次残差的样式连接，以增加输出特征可以表示的尺度的数量。具体地说，我们将输入特征映射分成几个组。一组过滤器首先从一组输入特征映射中提取特征。然后，前一组的输出特征与另一组输入特征映射一起发送到下一组过滤器。此过程重复多次，直到处理完所有输入特征映射。最后，将来自所有组的特征映射连接起来，并发送到另一组1×1滤波器，以将信息融合在一起。随着输入特征转化为输出特征的任何可能路径，每当通过3×3滤波器时，等效接收场都会增加，由于组合效应，导致许多等效特征尺度。

RES2NET策略公开了一个新的维度，即规模（RES2NET块中的特征组的数量），作为除了深度（47）、宽度2和基数（56）的现有维度之外的一个重要因素。我们马上就说。4.4增加规模比增加其他维度更有效。

图2：瓶颈块和提议的Res2Net模块之间的比较（尺度尺寸s＝4）。

注意，所提出的方法在多粒度水平上利用多尺度势，这与利用分层操作的现有方法正交。因此，所提出的构建块，即RES2NET模块，可以很容易地插入到许多现有的网体系结构中。大量的实验结果表明，Res2Net模块可以进一步提高最新CNNs的性能，如ResNet[23]、ResNeXt[56]和DLA[60]。

2相关工作

2.1骨干网

近年来，大量的骨干网[15]、[23]、[26]、[28]、[47]、[51]、[56]、[60]以更强的多尺度表示在各种视觉任务中实现了最佳性能。在设计上，CNNs具有基本的多尺度特征表示能力，因为输入信息遵循从细到粗的方式。与传统的视觉识别方法相比，AlexNet[28]按顺序堆叠过滤器并获得显著的性能增益。然而，由于网络深度和滤波器的内核大小的限制，AlexNet只有一个相对较小的接收场。VGGNet[47]增加了网络深度，并使用了内核较小的过滤器。较深的结构可以扩展感受野，这对于从更大的尺度上提取特征是有用的。与使用大核相比，通过堆叠更多的层来扩大感受野更有效。因此，VGGNet提供了比AlexNet更强的多尺度表示模型，参数更少。然而，AlexNet和VGGNet堆栈都直接过滤，这意味着每个特征层都有一个相对固定的接收场。

Network in-Network（NIN）[31]将多层感知器作为微型网络插入到大型网络中，以增强对接收域内局部斑块的模型可分辨性。NIN中引入的1×1卷积已经成为融合特征的一个流行模块。GoogLeNet[51]利用具有不同核大小的并行滤波器来增强多尺度表示能力。然而，由于其参数效率有限，这种能力往往受到计算约束的限制。初始网[50]、[52]在谷歌网中的平行路径的每条路径上叠加更多的滤波器，以进一步扩展接收场。另一方面，ResNet[23]引入了与神经网络的短连接，从而在获得更深层次的网络结构的同时缓解了梯度消失问题。在特征提取过程中，短连接允许卷积算子的不同组合，从而产生大量等价的特征尺度。类似地，DenseNet[26]中密集连接的层使得网络能够处理范围非常广的对象。DPN[10]将ResNet与DenseNet相结合，使ResNet的特征重用能力和DenseNet的特征探索能力得以实现。最近提出的DLA[60]方法在树结构中结合了层。层次树结构使网络具有更强的分层多尺度表示能力。

2.2视觉任务的多尺度表示

CNNs的多尺度特征表示对于目标检测[43]、人脸分析[4]、[41]、边缘检测[37]、语义分割[6]、显著目标检测[34]、[65]和骨架检测[67]等许多视觉任务具有重要意义，提高了这些领域的模型性能。

2.2.1目标检测

有效的CNN模型需要在场景中定位不同尺度的物体。早期的工作如R-CNN[18]主要依靠骨干网VGGNet[47]来提取多尺度特征。他等。提出了一种SPP网络方法[22]，该方法在骨干网之后利用空间金字塔池来增强多尺度能力。更快的R-CNN方法[43]进一步提出了区域建议网络来生成不同尺度的包围盒。基于更快的R-CNN，FPN[32]方法引入特征金字塔，从单个图像中提取不同尺度的特征。SSD方法[36]利用来自不同阶段的特征图来处理不同尺度的视觉信息。

2.2.2语义分割

提取对象的基本上下文信息需要CNN模型对不同尺度的特征进行处理，以实现有效的语义分割。Long等人。[38]提出了一种最早的实现全卷积网络（FCN）多尺度表示的语义分割方法。在DeepLab，Chen等人。[6]，[7]引入级联的cascaded atrous卷积模块，在保持空间分辨率的同时进一步扩展了接收场。最近，全局上下文信息通过PSPNet中的金字塔池方案从基于区域的特征聚合而来[64]。

2.2.3显著目标检测

精确定位图像中的显著对象区域需要了解用于确定对象显著性的大规模上下文信息，以及精确定位对象边界的小规模特征[66]。早期的方法[3]使用手工制作的全局对比度表示[13]或多尺度区域特征[53]。Li等人。[29]提出了一种最早的方法，使多尺度深度特征能够用于显著目标检测。随后，为了改进显著目标检测，提出了多上下文深度学习[68]和多级卷积特征[62]。最近，Hou等人。[24]在阶段之间引入密集的短连接，在每一层提供丰富的多尺度特征图，用于显著目标检测。

2.3 当前工作

最近，有一些并行工作旨在利用多尺度特征来提高性能[5]、[9]、[11]、[49]。大型小网（5）是由不同计算复杂度的分支组成的多分支网络。倍频程Conv[9]将标准卷积分解为两个分辨率，以处理不同频率的特征。MSNet[11]利用高分辨率网络，通过使用低分辨率网络学习的上采样低分辨率特征来学习高频残差。除了目前工作中的低分辨率表示外，HRNet[48]、[49]在网络中引入高分辨率表示，并重复执行多尺度融合以增强高分辨率表示。[5]、[9]、[11]、[48]、[49]中的一个常见操作是，它们都使用池或上采样将特征映射的大小重新调整为原始比例的2倍，以节省计算预算，同时保持甚至提高性能。而在Res2Net块中，单个剩余块模块内的分层剩余类连接使得在更细粒度上的接收场的变化能够捕获细节和全局特征。实验结果表明，Res2Net模块可以与这些新的网络设计集成，进一步提高性能。

3 RES2NET

3.1 Res2Net Module

图2（a）所示的瓶颈结构是许多现代骨干CNNs架构中的基本构建块，例如ResNet[23]、ResNeXt[56]和DLA[60]。在瓶颈块中，我们不使用3×3滤波器组来提取特征，而是在保持相似计算量的前提下，寻找具有更强多尺度特征提取能力的替代结构。具体来说，我们用更小的滤波器组替换一组3×3滤波器，同时以层次化的残差样式连接不同的滤波器组。由于我们提出的神经网络模块包含单个残差块内的残差类连接，因此我们将其命名为Res2Net。

图2示出了瓶颈块和所提议的Res2Net模块之间的区别。在1×1卷积之后，我们将特征映射均匀地分割成S特征映射子集，由表示，其中。与输入特征图相比，每个特征子集具有相同的空间大小，但具有的信道数。除外，每个都有相应的3×3卷积，由表示。我们用表示的输出。特征子集加上的输出，然后馈入。为了在增加s的同时减少参数，我们省略了的卷积。因此，可以写成：

注意，每个3×3卷积运算符可能从所有特征分割接收特征信息。每次特征通过3×3卷积算子分割时，输出结果可以具有比更大的接收场。由于组合爆炸效应，Res2Net模块的输出包含不同的数量和不同的接收场大小/尺度的组合。

在Res2Net模块中，对分割进行多尺度处理，有利于提取全局和局部信息。为了更好地融合不同尺度下的信息，我们将所有的分裂连接起来并通过1×1卷积。分割和连接策略可以强制卷积以更有效地处理特征。为了减少参数的数量，我们省略了第一次分割的卷积，这也可以看作是特征重用的一种形式。

在这项工作中，我们使用s作为比例维度的控制参数。较大的s可能允许学习具有更丰富接收场大小的特性，而通过级联引入的计算/内存开销可以忽略不计。

3.2与现代模块的集成

近年来，人们提出了许多神经网络模型，其中包括Xie等人引入的基数维。[56]，以及Hu等人提出的挤压和激励（SE）块。[25]。提出的Res2Net模块引入了与这些改进正交的尺度维数。如图3所示，我们可以很容易地将基数维[56]和SE块[25]与所提出的Res2Net模块集成。

3.2.1维度基数

维度基数表示过滤器内的组数[56]。该维数将滤波器从单分支变为多分支，提高了CNN模型的表示能力。在我们的设计中，我们可以用3×3群卷积代替3×3卷积，其中c表示群的数目。文中给出了尺度维数和基数的实验比较。4.2和4.4。

图3:Res2Net模块可以与维度基数[56]和SE[25]块集成（用组conv替换conv）。

3.2.2 SE区块。

SE块通过显式地建模信道之间的相互依赖性来自适应地重新校准信道特征响应[25]。与[25]类似，我们在Res2Net模块的剩余连接之前添加SE块。我们的Res2Net模块可以受益于SE模块的集成，我们已经在Sec中进行了实验证明。4.2和秒。4.3条。

3.3综合模型

由于所提出的Res2Net模块不具有对网络整体结构的特定要求，且Res2Net模块的多尺度表示能力与CNNs的分层特征聚合模型正交，因此可以很容易地将所提出的Res2Net模块集成到ResNet[23]、ResNeXt等最新模型中[56]、DLA[60]和大小网[5]。相应的模型分别称为Res2Net、Res2NeXt、Res2Net DLA和bLRes2Net-50

所提出的尺度维数与先前工作的基数[56]维数和宽度[23]维数正交。因此，在设置尺度之后，我们调整基数和宽度的值，以保持与它的对应物相似的整体模型复杂度。在这项工作中，我们不专注于减小模型大小，因为它需要更细致的设计，如深度可分卷积[40]、模型修剪[19]和模型压缩[14]。

对于ImageNet[44]数据集上的实验，我们主要使用ResNet-50[23]、ResNeXt-50[56]、DLA-60[60]和bLResNet-50[5]作为基线模型。该模型的复杂度近似于基线模型，其参数数约为2500米，224×224像素的图像的跳数约为50层。对于CIFAR[27]数据集上的实验，我们使用ResNeXt-29，8c×64w[56]作为基线模型。所提出的模型相对于模型复杂度的经验评估和讨论在SEC中给出。4.4条。

4 EXPERIMENTS

4.1 Implementation Details

我们使用Pytorch框架实现了所提出的模型。为了进行公平的比较，我们使用了ResNet[23]、ResNeXt[56]、DLA[60]和bLResNet50[5]的Pytorch实现，并且仅用建议的Res2Net模块替换了原来的瓶颈块。与之前的工作类似，在ImageNet数据集[44]上，每个图像是从重新调整大小的图像中随机裁剪的224×224像素。我们使用与[23]，[52]相同的数据论证策略。与[23]类似，我们使用重量衰减为0.0001、动量为0.9的SGD和4个Titan Xp gpu上的256个小批量训练网络。学习率最初设置为0.1，每30个阶段除以10。

在相同的训练和数据论证策略下，对ImageNet的所有模型，包括基线模型和提出的模型，进行了100个阶段的训练。为了测试，我们使用与[23]相同的图像裁剪方法。在CIFAR数据集上，我们使用ResNeXt-29[56]的实现。对于所有的任务，我们使用基线的原始实现，并且只用建议的Res2Net替换主干模型。

4.2 ImageNet

我们在ImageNet数据集[44]上进行了实验，该数据集包含128万个训练图像和来自1000个类的50k个验证图像。我们建立了近似于50层的模型，用于评价方法的状态。在CIFAR数据集上进行了更多的消融研究。

4.2.1性能增益。

表1显示了ImageNet数据集上的前1个和前5个测试错误。为了简单起见，表1中的所有Res2Net模型的比例都是s=4。与ResNet-50相比，Res2Net-50在前1个错误上提高了1.84%。Res2NeXt-50比ResNeXt-50在前1个错误方面提高了0.85%。此外，Res2Net-DLA-60在前1个错误方面比DLA-60强1.27%。就前1个错误而言，Res2NeXt-DLA-60的性能比DLA-X-60高0.64%。SE-Res2Net-50比SENet-50提高了1.68%。bLRes2Net-50的前1个错误比布莱斯内特-50。Res2Net模块进一步增强了bLResNet在粒度级别上的多尺度能力，甚至bLResNet被设计为利用第2节中讨论的不同尺度的特征。2.3条。注意，ResNet[23]、ResNeXt[56]、SE Net[25]、bLResNet[5]和DLA[60]是最先进的CNN模型。与这些强大的基线相比，与Res2Net模块集成的模型仍然具有一致的性能增益。

我们还将我们的方法与InceptionV3[52]模型进行了比较，后者使用了具有不同内核组合的并行过滤器。为了进行公平比较，我们使用ResNet-50[23]作为基线模型，并按照InceptionV3模型中使用的那样，使用299×299像素的输入图像大小来训练我们的模型。建议的Res2Net-50-299在前1个错误上比InceptionV3的性能好1.14%。我们得出结论：在处理多尺度信息时，Res2Net模块的分层残差连接比InceptionV3的并行滤波器更有效。设计了InceptionV3中滤波器的组合模式，Res2Net模块给出了一种简单有效的组合模式。

4.2.2使用Res2Net进行更深入的研究。

更深层的网络已经被证明具有更强的视觉任务表示能力[23]，[56]。为了更深入地验证我们的模型，我们比较了Res2Net和ResNet在101层上的分类性能。如表2所示，与ResNet-101相比，Res2Net-101以1.82%的最大误差获得了显著的性能提升。注意，相对于ResNet-50，Res2Net-50在前1个错误方面的性能增益为1.84%。这些结果表明，所提出的具有额外维度尺度的模块可以与更深层次的模型集成，以获得更好的性能。我们还将我们的方法与DenseNet[26]进行了比较。与官方提供的DenseNet家族中性能最好的型号DenseNet-161相比，Res2Net-101的前1误差提高了1.54%。

4.2.3标度尺寸的有效性。

为了验证我们提出的维度尺度，我们实验分析了不同尺度的影响。如表3所示，性能随规模的增加而增加。随着规模的增大，14w×8s的Res2Net-50在top1误差方面比ResNet-50的性能提高了1.99%。注意，随着保存的复杂性，Ki（）的宽度随着尺度的增大而减小。我们进一步评估性能增益增加规模与模型复杂度增加。具有26w×8s的Res2Net-50在top1误差方面比ResNet-50具有3.05%的显著性能提高。一个18w×4s的Res2Net-50也比ResNet50强0.93%，仅69%的失败率。表3显示了不同规模下的运行时，即推断大小为224×224的ImageNet验证集的平均时间。尽管需要计算特征拆分{yi},由于分层连接，Res2Net模块引入的额外运行时间通常可以忽略。由于GPU中可用张量的数量是有限的，对于Res2Net的典型设置，即s＝4，在单个GPU时钟周期内通常有足够的并行计算。

4.3 CIFAR

我们还在CIFAR-100数据集[27]上进行了一些实验，该数据集包含来自100个类的50k个训练图像和10k个测试图像。以ResNeXt-29，8c×64w[56]为基线模型。我们只用我们提出的Res2Net模块替换原来的基本块，同时保持其他配置不变。表4显示了CIFAR-100数据集上的前1个测试错误和模型大小。实验结果表明，该方法在参数较少的情况下优于基线法和其他方法。我们提出的Res2NeXt-29，6c×24w×6s的性能比基线提高了1.11%。Res2NeXt-29，6c×24w×4s的性能甚至优于ResNeXt-29，16c×64w，只有35%的参数。与DenseNet BC（k=40）相比，我们在较少的参数下也获得了更好的性能。与Res2NeXt-29、6c×24w×4s相比，Res2NeXt-29、8c×25w×4s具有更大的宽度和基数，说明尺寸尺度与尺寸宽度和基数是正交的。我们还将最近提出的SE区块整合到我们的结构中。在参数较少的情况下，我们的方法仍然优于ResNeXt-29，8c×64w SE基线。

图4：类激活映射的可视化[45]，使用ResNet-50和Res2Net-50作为骨干网络。

图5：通过改变基数（ResNeXt-29）、深度（ResNeXt）和比例（Res2Net-29），在CIFAR-100数据集上测试模型大小的精度。

表5:PASCAL VOC07和COCO数据集上的目标检测结果，使用AP（%）和AP@IoU=0.5（%）进行测量。RES2NETs与同类相比具有类似的复杂性。

表6:COCO数据集上不同大小目标检测的平均精度（AP）和平均召回率（AR）。

4.4比例变化

类似于谢等人。[56]，我们通过增加不同的CNN维度来评估基线模型的测试性能，包括标度（方程式（1））、基数[56]和深度[47]。在使用一个维度增加模型容量的同时，我们修复了所有其他维度。在这些变化下，对一系列网络进行了训练和评估。由于[56]已经表明增加基数比增加宽度更有效，我们只将提出的维度尺度与基数和深度进行比较。

图5示出了关于模型大小的CIFAR-100数据集上的测试精度。基线模型的深度、基数和比例分别为29、6和1。实验结果表明，尺度是提高模型性能的有效维度，这与我们在ImageNet数据集上所观察到的一致。4.2条。此外，增加规模比其他维度更有效，从而更快地提高性能。如方程（1）和图2所述，对于标度s=2的情况，我们仅通过增加1×1滤波器的更多参数来增加模型容量。因此，s=2的模型性能略低于增加基数的模型性能。对于s=3,4，我们的分层类残差结构的组合效应产生了一组丰富的等价尺度，从而显著提高了性能。然而，具有5和6尺度的模型具有有限的性能增益，因此我们假设CIFAR数据集中的图像太小（32×32），无法具有多个尺度。

4.5类激活映射

为了了解Res2Net的多尺度能力，我们使用Grad CAM[45]可视化了类激活映射（CAM），该映射通常用于定位用于图像分类的判别区域。在图4所示的可视化示例中，较强的凸轮区域被较浅的颜色覆盖。与ResNet相比，基于Res2Net的CAM结果在诸如“棒球”和“企鹅”之类的小物体上有更集中的激活图。这两种方法在中等大小的物体上都有类似的激活图，例如“冰激凌”。由于具有更强的多尺度能力，Res2Net的激活图倾向于覆盖‘bulbul’、‘mountain dog’、‘ballpoint’和‘mosque’等大对象上的整个对象，而ResNet的激活图只覆盖部分对象。这种精确定位CAM区域的能力使得Res2Net对于弱监督语义分割任务中的对象区域挖掘具有潜在的价值[54]。

4.6目标检测

对于目标检测任务，我们使用更快的RCNN[43]作为基线方法，在PASCAL VOC07[17]和MS-COCO[33]数据集上验证Res2Net。我们使用ResNet-50和Res2Net-50的骨干网，并遵循[43]的所有其他实现细节进行公平比较。表5显示了目标检测结果。在PASCAL VOC07数据集上，基于Res2Net50的模型在平均精度（AP）上比同类模型高出2.3%。在COCO数据集上，基于Res2Net-50的模型在AP和AP@IoU=0.5上的性能分别比对应的模型好2.6%和2.2%。

4.7语义分割

语义分割要求CNNs具有很强的多尺度能力，能够提取出对象的基本上下文信息。因此，我们使用PASCAL VOC12数据集[16]评估Res2Net在语义分割任务中的多尺度能力。我们遵循前面的工作，使用增广PASCAL VOC12数据集[20]，其中包含10582个训练图像和1449个val图像。我们使用Deeplab v3+[8]作为分割方法。除了骨干网被ResNet和我们提议的Res2Net取代之外，所有的实现都与Deeplab v3+[8]保持一致。训练和评估中使用的输出跨步都是16。如表7所示，基于Res2Net-50的方法在平均IoU上比其对应的方法好1.5%。而基于Res2Net101的方法在平均IoU上的性能比其同类方法高出1.2%。图6展示了在具有挑战性的例子上语义分割结果的视觉比较。基于Res2Net的方法倾向于分割对象的所有部分，而不考虑对象的大小。如表6所示，我们进一步测试不同大小物体的AP和平均召回（AR）分数。根据文献[33]，物体根据大小分为三类。基于Res2Net的模型在小对象、中对象和大对象AP上的改进幅度分别为0.5%、2.9%和4.9%。小、中、大目标的AR改善率分别为1.4%、2.5%和3.7%。基于Res2Net的模型具有很强的多尺度能力，能够覆盖大范围的感受野，提高了对不同尺寸物体的性能。

4.8实例分割

实例分割是目标检测和语义分割的结合。它不仅要求对图像中不同大小的目标进行正确的检测，而且要求对每个目标进行精确的分割。如第2节所述。4.6秒。4.7条，无论是目标检测还是语义分割都要求CNNs具有很强的多尺度能力。因此，多尺度表示有利于实例分割。我们使用Mask-RCNN[21]作为实例分割方法，用我们提出的Res2Net-50代替ResNet-50的骨干网。MS-COCO[33]数据集的实例分割性能如表8所示。基于Res2Net-26w×4s的方法在AP和AP50上的性能分别比同类方法好1.7%和2.4%。文中还给出了不同尺寸物体的性能增益。小、中、大物体AP的改善率分别为0.9%、1.9%和2.8%。表8还显示了RES2NETs在相同的复杂度下的性能比较。随着规模的扩大，业绩总体呈上升趋势。值得注意的是，与Res2Net-50-48w×2s相比，Res2Net-50-26w×4s对APL的抑制率提高了2.8%，而Res2Net-50-48w×2s的抑制率与ResNet-50相同。我们假设大对象上的性能增益得益于额外的规模。当规模相对较大时，性能增益不明显。Res2Net模块能够学习适当范围的感受野。当图像中对象的尺度已经被Res2Net模块中可用的接收场覆盖时，性能增益受到限制。随着固定的复杂性，增加的规模导致更少的通道为每个接收场，这可能降低处理特定尺度的特征的能力。

4.9显著目标检测

像显著目标检测这样的像素级任务也要求CNNs具有很强的多尺度定位能力，既能定位整体目标，又能定位区域细节。这里我们使用最新的方法DSS[24]作为基线。为了公平比较，我们只将主干网替换为ResNet-50和我们建议的Res2Net50，同时保持其他配置不变。在[24]之后，

我们使用MSRA-B数据集[35]训练这两个模型，并在ECSSD[58]、PASCAL-S[30]、HKU-IS[29]和DUT-OMRON[59]数据集上评估结果。采用F-测度和平均绝对误差（MAE）进行评价。如表9所示，与所有数据集上的对应模型相比，基于Res2Net的模型有一致的改进。在DUT-OMRON数据集（包含5168幅图像）上，与基于ResNet的模型相比，基于Res2Net的模型在F-测度上提高了5.2%，在MAE上提高了2.1%。基于Res2Net的方法在DUT-OMRON数据集上获得了最大的性能增益，因为与其他三个数据集相比，该数据集包含了最显著的对象大小变化。在图7中示出了在具有挑战性的示例上显著目标检测结果的一些视觉比较。

4.10关键点估算

人体各部位大小不一，这就要求采用关键点估计方法来定位不同尺度的人体关键点。为了验证Res2Net的多尺度表示能力是否有利于关键点的估计，我们使用SimpleBaseline[55]作为关键点的估计方法，仅用提出的Res2Net代替骨干网。所有实现，包括训练和测试策略，都与SimpleBaseline保持一致[55]。我们使用COCO关键点检测数据集[33]训练模型，并评估模型使用COCO验证集。根据常见设置，我们在SimpleBaseline[55]中使用相同的人检测器进行评估。表10显示了使用Res2Net在COCO验证集上估计关键点的性能。基于Res2Net-50和Res2Net-101的模型在AP上的性能分别比基线好3.3%和3.0%。此外，与基线相比，基于Res2Net的模型在不同尺度的人身上具有相当大的性能增益。

5结论与未来工作

我们提出了一个简单而有效的块，即Res2Net，以进一步探索CNNs在更细粒度上的多尺度能力。ReS2NET公开了一个新的维度，即“尺度”，它除了深度、宽度和基数的现有维度之外，也是一个必要的和更有效的因素。我们的RES2NET模块可以集成现有的最先进的方法，不费力气。CIFAR-100和ImageNet基准上的图像分类结果表明，我们的新骨干网络始终优于其最先进的竞争对手，包括ResNet、ResNeXt、DLA，等。虽然在一些典型的计算机视觉任务（包括类激活映射、目标检测和显著目标检测）中已经证明了所提出的骨干模型的优越性，但我们相信多尺度表示对于更广泛的应用领域是必不可少的。为了鼓励将来的工作利用Res2Net强大的多尺度能力，可以在https://mmcheng.net/Res2Net/上获得源代码

ACKNOWLEDGMENTS

本研究得到国家自然科学基金（编号616201600861572264）、国家青年人才支持计划和天津市自然科学基金（17JCJQJC43700、18ZXZNGX00110）的资助。

REFERENCES
[1] S. Belongie, J. Malik, and J. Puzicha. Shape matching and object
recognition using shape contexts. IEEE Transactions on Pattern Analysis
and Machine Intelligence, 24(4):509–522, 2002.
[2] A. Borji, M.-M. Cheng, Q. Hou, H. Jiang, and J. Li. Salient object
detection: A survey. Computational Visual Media, 5(2):117–150, 2019.
[3] A. Borji, M.-M. Cheng, H. Jiang, and J. Li. Salient object detection: A
benchmark. IEEE Transactions on Image Processing, 24(12):5706–5722,
2015.
[4] A. Bulat and G. Tzimiropoulos. How far are we from solving the
2d & 3d face alignment problem?(and a dataset of 230,000 3d facial
landmarks). In IEEE Conference on Computer Vision and Pattern
Recognition (CVPR), pages 1021–1030, 2017.
[5] C.-F. R. Chen, Q. Fan, N. Mallinar, T. Sercu, and R. Feris. Big-Little Net:
An Efficient Multi-Scale Feature Representation for Visual and Speech
Recognition. In International Conference on Learning Representations,
2019.
[6] L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Y uille.
Deeplab: Semantic image segmentation with deep convolutional nets,
atrous convolution, and fully connected crfs. IEEE Transactions on
Pattern Analysis and Machine Intelligence, 40(4):834–848, 2018.
[7] L.-C. Chen, G. Papandreou, F. Schroff, and H. Adam. Rethinking
atrous convolution for semantic image segmentation. arXiv preprint
arXiv:1706.05587, 2017.
[8] L.-C. Chen, Y . Zhu, G. Papandreou, F. Schroff, and H. Adam. Encoder-
decoder with atrous separable convolution for semantic image segmen-
tation. In The European Conference on Computer Vision (ECCV),
September 2018.
[9] Y . Chen, H. Fang, B. Xu, Z. Yan, Y . Kalantidis, M. Rohrbach, S. Yan, and
J. Feng. Drop an octave: Reducing spatial redundancy in convolutional
neural networks with octave convolution. In IEEE Conference on
Computer Vision and Pattern Recognition (CVPR), 2019.
[10] Y . Chen, J. Li, H. Xiao, X. Jin, S. Yan, and J. Feng. Dual path networks.
In Advances in Neural Information Processing Systems (NIPS), pages
4467–4475, 2017.
[11] B. Cheng, R. Xiao, J. Wang, T. Huang, and L. Zhang. High frequency
residual learning for multi-scale image classification. In British Machine
Vision Conference (BMVC), 2019.
[12] M.-M. Cheng, Y . Liu, W.-Y . Lin, Z. Zhang, P . L. Rosin, and P . H. S. Torr.
Bing: Binarized normed gradients for objectness estimation at 300fps.
Computational Visual Media, 5(1):3–20, Mar 2019.
[13] M.-M. Cheng, N. J. Mitra, X. Huang, P . H. Torr, and S.-M. Hu. Global
contrast based salient region detection. IEEE Transactions on Pattern
Analysis and Machine Intelligence, 37(3):569–582, 2015.
[14] Y . Cheng, D. Wang, P . Zhou, and T. Zhang. A survey of model
compression and acceleration for deep neural networks. arXiv preprint
arXiv:1710.09282, 2017.
[15] F. Chollet. Xception: Deep learning with depthwise separable convolu-
tions. In IEEE Conference on Computer Vision and Pattern Recognition
(CVPR), July 2017.
[16] M. Everingham, S. A. Eslami, L. V an Gool, C. K. Williams, J. Winn, and
A. Zisserman. The pascal visual object classes challenge: A retrospective.
International Journal of Computer Vision, 111(1):98–136, 2015.
[17] M. Everingham, L. V an Gool, C. K. Williams, J. Winn, and A. Zisserman.
The pascal visual object classes (voc) challenge. International Journal
of Computer Vision, 88(2):303–338, 2010.
[18] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies
for accurate object detection and semantic segmentation. In IEEE
Conference on Computer Vision and Pattern Recognition (CVPR), pages
580–587, 2014.
[19] S. Han, J. Pool, J. Tran, and W. Dally. Learning both weights and con-
nections for efficient neural network. In Advances in Neural Information
Processing Systems (NIPS), pages 1135–1143, 2015.
[20] B. Hariharan, P . Arbeláez, L. Bourdev, S. Maji, and J. Malik. Semantic
contours from inverse detectors. In IEEE International Conference on
Computer Vision (ICCV). IEEE, 2011.
[21] K. He, G. Gkioxari, P . Dollár, and R. Girshick. Mask r-cnn. In IEEE
International Conference on Computer Vision (ICCV), pages 2961–2969,

[22] K. He, X. Zhang, S. Ren, and J. Sun. Spatial pyramid pooling in deep
convolutional networks for visual recognition. IEEE Transactions on
Pattern Analysis and Machine Intelligence, 37(9):1904–1916, 2015.
[23] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for
image recognition. In IEEE Conference on Computer Vision and Pattern
Recognition (CVPR), pages 770–778, 2016.
[24] Q. Hou, M.-M. Cheng, X. Hu, A. Borji, Z. Tu, and P . Torr. Deeply super-
vised salient object detection with short connections. IEEE Transactions
on Pattern Analysis and Machine Intelligence, 41(4):815–828, 2019.
[25] J. Hu, L. Shen, and G. Sun. Squeeze-and-excitation networks. In IEEE
Conference on Computer Vision and Pattern Recognition (CVPR), 2018.
[26] G. Huang, Z. Liu, L. V an Der Maaten, and K. Q. Weinberger. Densely
connected convolutional networks. In IEEE Conference on Computer
Vision and Pattern Recognition (CVPR), 2017.
[27] A. Krizhevsky and G. Hinton. Learning multiple layers of features from
tiny images. Technical report, Citeseer, 2009.
[28] A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenet classification
with deep convolutional neural networks. In Advances in Neural Infor-
mation Processing Systems (NIPS), pages 1097–1105, 2012.
[29] G. Li and Y . Y u. Visual saliency based on multiscale deep features. In
IEEE Conference on Computer Vision and Pattern Recognition (CVPR),
pages 5455–5463, 2015.
[30] Y . Li, X. Hou, C. Koch, J. M. Rehg, and A. L. Y uille. The secrets of
salient object segmentation. In IEEE Conference on Computer Vision
and Pattern Recognition (CVPR), pages 280–287, 2014.
[31] M. Lin, Q. Chen, and S. Yan. Network in network. In Int. Conf. Learn.
Represent., 2013.
[32] T.-Y . Lin, P . Dollár, R. B. Girshick, K. He, B. Hariharan, and S. J.
Belongie. Feature pyramid networks for object detection. In IEEE Con-
ference on Computer Vision and Pattern Recognition (CVPR), volume 1,
page 4, 2017.
[33] T.-Y . Lin, M. Maire, S. Belongie, J. Hays, P . Perona, D. Ramanan,
P . Dollár, and C. L. Zitnick. Microsoft coco: Common objects in context.
In European Conference on Computer Vision (ECCV), pages 740–755.
Springer, 2014.
[34] J.-J. Liu, Q. Hou, M.-M. Cheng, J. Feng, and J. Jiang. A simple pooling-
based design for real-time salient object detection. In IEEE Conference
on Computer Vision and Pattern Recognition (CVPR), 2019.
[35] T. Liu, Z. Y uan, J. Sun, J. Wang, N. Zheng, X. Tang, and H.-Y . Shum.
Learning to detect a salient object. IEEE Transactions on Pattern
Analysis and Machine Intelligence, 33(2):353–367, 2011.
[36] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, C.-Y . Fu, and A. C.
Berg. Ssd: Single shot multibox detector. In European Conference on
Computer Vision (ECCV), pages 21–37. Springer, 2016.
[37] Y . Liu, M.-M. Cheng, X. Hu, J.-W. Bian, L. Zhang, X. Bai, and J. Tang.
Richer convolutional features for edge detection. IEEE Transactions on
Pattern Analysis and Machine Intelligence, 41(8):1939 – 1946, 2019.
[38] J. Long, E. Shelhamer, and T. Darrell. Fully convolutional networks for
semantic segmentation. In IEEE Conference on Computer Vision and
Pattern Recognition (CVPR), pages 3431–3440, 2015.
[39] D. G. Lowe. Distinctive image features from scale-invariant keypoints.
International Journal of Computer Vision, 60(2):91–110, 2004.
[40] N. Ma, X. Zhang, H.-T. Zheng, and J. Sun. Shufflenet v2: Practical
guidelines for efficient cnn architecture design. In European Conference
on Computer Vision (ECCV), September 2018.
[41] M. Najibi, P . Samangouei, R. Chellappa, and L. S. Davis. Ssh: Single
stage headless face detector. In Proceedings of the IEEE International
Conference on Computer Vision, pages 4875–4884, 2017.
[42] G.-Y . Nie, M.-M. Cheng, Y . Liu, Z. Liang, D.-P . Fan, Y . Liu, and
Y . Wang. Multi-level context ultra-aggregation for stereo matching. In
IEEE Conference on Computer Vision and Pattern Recognition (CVPR),
pages 3283–3291, 2019.
[43] S. Ren, K. He, R. Girshick, and J. Sun. Faster r-cnn: Towards real-time
object detection with region proposal networks. In Advances in Neural
Information Processing Systems (NIPS), pages 91–99, 2015.
[44] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang,
A. Karpathy, A. Khosla, M. Bernstein, et al. Imagenet large scale
visual recognition challenge. International Journal of Computer Vision,
115(3):211–252, 2015.
[45] R. R. Selvaraju, M. Cogswell, A. Das, R. V edantam, D. Parikh, D. Batra,
et al. Grad-cam: Visual explanations from deep networks via gradient-
based localization. In IEEE International Conference on Computer
Vision (ICCV), pages 618–626, 2017.
[46] K. Simonyan and A. Zisserman. Two-stream convolutional networks
for action recognition in videos. In Advances in Neural Information
Processing Systems (NIPS), pages 568–576, 2014.
[47] K. Simonyan and A. Zisserman. V ery deep convolutional networks for
large-scale image recognition. In Int. Conf. Learn. Represent., 2014.
[48] K. Sun, B. Xiao, D. Liu, and J. Wang. Deep high-resolution repre-
sentation learning for human pose estimation. In IEEE Conference on

Computer Vision and Pattern Recognition (CVPR), 2019.
[49] K. Sun, Y . Zhao, B. Jiang, T. Cheng, B. Xiao, D. Liu, Y . Mu, X. Wang,
W. Liu, and J. Wang. High-resolution representations for labeling pixels
and regions. CoRR, abs/1904.04514, 2019.
[50] C. Szegedy, S. Ioffe, V . V anhoucke, and A. A. Alemi. Inception-v4,
inception-resnet and the impact of residual connections on learning. In
The National Conference on Artificial Intelligence (AAAI), volume 4,
page 12, 2017.
[51] C. Szegedy, W. Liu, Y . Jia, P . Sermanet, S. Reed, D. Anguelov, D. Erhan,
V . V anhoucke, and A. Rabinovich. Going deeper with convolutions. In
IEEE Conference on Computer Vision and Pattern Recognition (CVPR),
pages 1–9, 2015.
[52] C. Szegedy, V . V anhoucke, S. Ioffe, J. Shlens, and Z. Wojna. Rethinking
the inception architecture for computer vision. In IEEE Conference on
Computer Vision and Pattern Recognition (CVPR), pages 2818–2826,
2016.
[53] J. Wang, H. Jiang, Z. Y uan, M.-M. Cheng, X. Hu, and N. Zheng. Salient
object detection: A discriminative regional feature integration approach.
International Journal of Computer Vision, 123(2):251–268, 2017.
[54] Y . Wei, J. Feng, X. Liang, M.-M. Cheng, Y . Zhao, and S. Yan. Object
region mining with adversarial erasing: A simple classification to seman-
tic segmentation approach. In IEEE Conference on Computer Vision and
Pattern Recognition (CVPR), 2017.
[55] B. Xiao, H. Wu, and Y . Wei. Simple baselines for human pose estimation
and tracking. In European Conference on Computer Vision (ECCV),
September 2018.
[56] S. Xie, R. Girshick, P . Dollár, Z. Tu, and K. He. Aggregated residual
transformations for deep neural networks. In IEEE Conference on
Computer Vision and Pattern Recognition (CVPR), pages 5987–5995.
IEEE, 2017.
[57] S. Xie and Z. Tu. Holistically-nested edge detection. In IEEE Conference
on Computer Vision and Pattern Recognition (CVPR), pages 1395–1403,
2015.
[58] Q. Yan, L. Xu, J. Shi, and J. Jia. Hierarchical saliency detection. In IEEE
Conference on Computer Vision and Pattern Recognition (CVPR), pages
1155–1162, 2013.
[59] C. Yang, L. Zhang, H. Lu, X. Ruan, and M.-H. Yang. Saliency detection
via graph-based manifold ranking. In IEEE Conference on Computer
Vision and Pattern Recognition (CVPR), pages 3166–3173, 2013.
[60] F. Y u, D. Wang, E. Shelhamer, and T. Darrell. Deep layer aggregation. In
IEEE Conference on Computer Vision and Pattern Recognition (CVPR),
pages 2403–2412, 2018.
[61] S. Zagoruyko and N. Komodakis. Wide residual networks. In British
Machine Vision Conference (BMVC), 2016.
[62] P . Zhang, D. Wang, H. Lu, H. Wang, and X. Ruan. Amulet: Aggregating
multi-level convolutional features for salient object detection. In IEEE
Conference on Computer Vision and Pattern Recognition (CVPR), pages
202–211, 2017.
[63] T. Zhang, C. Xu, and M.-H. Yang. Multi-task correlation particle filter
for robust object tracking. In IEEE Conference on Computer Vision and
Pattern Recognition (CVPR), 2017.
[64] H. Zhao, J. Shi, X. Qi, X. Wang, and J. Jia. Pyramid scene parsing net-
work. In IEEE Conference on Computer Vision and Pattern Recognition
(CVPR), 2017.
[65] J. Zhao, Y . Cao, D.-P . Fan, X.-Y . Li, L. Zhang, and M.-M. Cheng.
Contrast prior and fluid pyramid integration for rgbd salient object detec-
tion. In IEEE Conference on Computer Vision and Pattern Recognition
(CVPR), 2019.
[66] K. Zhao, S. Gao, W. Wang, and M.-M. Cheng. Optimizing the F-
measure for threshold-free salient object detection. In IEEE International
Conference on Computer Vision (ICCV), 2019.
[67] K. Zhao, W. Shen, S. Gao, D. Li, and M.-M. Cheng. Hi-Fi: Hierar-
chical feature integration for skeleton detection. In International Joint
Conference on Artificial Intelligence (IJCAI), 2018.
[68] R. Zhao, W. Ouyang, H. Li, and X. Wang. Saliency detection by multi-
context deep learning. In IEEE Conference on Computer Vision and
Pattern Recognition (CVPR), pages 1265–1274, 2015.