【论文阅读】Feature Pyramid Grids

2023-11-02 09:50

本文主要是介绍【论文阅读】Feature Pyramid Grids,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

作为剑指 FPN 的新作,难不成将来要取代 FPN ?拭目以待... ArXiv 链接: https://arxiv.org/abs/2004.03580 

一、摘要

特征金字塔网络 (FPN) 在目标检测领域得到了广泛的应用,以改进特征表示以更好地处理尺度变化。本文提出了一种深层的多路径金字塔 —— 特征金字塔网格 (FPG),它将特征尺度空间表示为融合了多向横向连接的而自底向上平行路径的规则网格。FPG 可以显著提高单路特征金字塔网络的性能,同时具有相似的计算成本,突出了深层金字塔表示的重要性。除了其一般的和统一的结构、用神经结构搜索发现的过于复杂的结构外,它还可以在不依赖搜索的情况下与这些方法进行比较。我们希望 FPG 具有统一有效的特性,可以作为未来目标识别工作的有力组成部分。

主要考虑:(1) FPG 是否能够在复杂性成本低于 FPN 的情况下得到改善; (2) 即使是在系统设计的情况下,FPG 是否能够与 NAS 优化的金字塔结构竞争。


二、网络结构

与 FPN 不同,FPG 的独立通路均是自下而上构建,类似于从输入图像到预测输出的主干通路。为形成一个深层网格的特征金字塔,无论是跨尺度的,还是尺度范围内的,金字塔通道与各类横向连接交织,从而实现各层次的信息交换。如图1所示,存在4 种横向连接,分别是:AcrossSame → (蓝色实线)、AcrossUp ↗ (紫色实线)、AcrossDown↘ (绿色实线)、AcrossSkip (橙色虚线) 。 

2.1 Backbone pathway (主干通路)

主干通路可以是用于图像分类的任何卷积神经网络的层次特征表示。该通路与 FPN 中自下而上的通路相同。它从输入图像到输出的逐步缩小尺度特征映射。在 FPN 中,相同尺度的特征张量属于一个网络阶段,特征张量的空间步长从前到后逐渐增大。

2.2 Pyramid pathways (金字塔通路)

众所周知,骨干网络层次越深,越接近分类层,从而语义信息更加丰富,但相应空间分辨率更低,而浅层特征与语义的相关性较弱,但因分辨率高从而定位精度也更高。金字塔通路旨在建立同时强语义信息的精细分辨率特征。

  • Multiple pyramid pathways (多金字塔通路)

FPG 通过多个 p>1 平行的金字塔通道进行扩展。旨在通过多个平行金字塔通路丰富网络能力,从而构建一个具有跨空间维度的精细分辨率和高分辨能力的强大网络。作者通过自底向上的方式构建金字塔通路,与主干通道平行 (第一个最高分辨率的金字塔特征取自相应的主干阶段) 。金字塔通路中的连接表示为向上。多个通路的存在是 FPG 概念的关键 (图1),因为它允许网络建立更强的金字塔特征。为形成一个深层的金字塔网格,p 个金字塔通道与各种横向连接交织在一起。

  • Low channel capacity (低通道容量)

降低通道容量能够实现金字塔通道轻量化。金字塔的通道数量显著低于主干通路最后阶层的通道数。权重层的计算成本 (浮点数操作 or FLOPs) 与其通道维数(即宽度)的平方成比例。故减少金字塔通道的通道容量可提升多个通道的计算效率。

2.3  Lateral connections (横向连接)

横向连接旨在利用尺度空间中的多向(语义)信息流丰富特征,允许复杂的层次特征跨尺度学习。根据横向连接的起始和结束特征阶段,可将横向连接分为 4 类,即图 1 展示的: AcrossSame → (蓝色实线)、AcrossUp ↗ (紫色实线)、AcrossDown ↘ (绿色实线)、AcrossSkip (橙色虚线)。


三、实现方式

3.1 Backbone pathway (主干通路)

主通道是主对流网络的前馈计算,它计算一个由若干尺度的特征映射组成的特征层次结构。以ResNet[10]为例,采用与FPN相同的方案,使用每个阶段最后剩余块的输出特征映射来表示金字塔级别,表示为 {C2,C3,C4,C5}。

3.2 Pyramid pathways (金字塔通路)

与主干通路相似,金字塔通路代表跨尺度的信息。从最高分辨率阶段到最低分辨率阶段,以自底向上的方式构建它们。首先,该通路的第一特征图由对应的高分辨率主干或金字塔级通过 1×1 横向卷积连接实现。其次,下采样后使用步长 2 的 3×3 卷积,在金字塔路径中创建各个较低层次的特征图。因此在各金字塔通路中,特征层次由多尺度的特征图构成,且各阶段的空间分辨率与主干通路一致。

3.3 Lateral connections (横向连接)

  • AcrossSame → (蓝色实线)

这些横向连接将同一水平的特征通过通路连接起来,通过在特征图上使用 1×1 横向卷积来投影这些特征,并使之与相邻通路中相应的特征融合。

  • AcrossUp ↗ (紫色实线)

为缩短从浅路径低水平特征到深路径的高水平特征的路径,通过引入了直接连接来构建跨水平的自底向上路径。通过步长为 2 的 3×3 卷积将低层特征图降采样至一半大小,再与高层特征图融合。

  • AcrossDown↘ (绿色实线)

通过整合向下的连接来实现自上而下的信息流。首先用2倍放缩比例的最近邻插值对高层特征图上采样,然后利用 3×3 卷积使之变为可学习的 (learnable)。上采样特征与下采样特征融合到了一起。

  • AcrossSkip (橙色虚线)

为简化如此宽泛的 FPG 的训练,在相同层级的首个通路及其后一个通路之间添加了跳跃连接,如 1×1 卷积。

四、实现细节

 

五、实验结果

 

这篇关于【论文阅读】Feature Pyramid Grids的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/329769

相关文章

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

OmniGlue论文详解(特征匹配)

OmniGlue论文详解(特征匹配) 摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super

软件架构模式:5 分钟阅读

原文: https://orkhanscience.medium.com/software-architecture-patterns-5-mins-read-e9e3c8eb47d2 软件架构模式:5 分钟阅读 当有人潜入软件工程世界时,有一天他需要学习软件架构模式的基础知识。当我刚接触编码时,我不知道从哪里获得简要介绍现有架构模式的资源,这样它就不会太详细和混乱,而是非常抽象和易

BERT 论文逐段精读【论文精读】

BERT: 近 3 年 NLP 最火 CV: 大数据集上的训练好的 NN 模型,提升 CV 任务的性能 —— ImageNet 的 CNN 模型 NLP: BERT 简化了 NLP 任务的训练,提升了 NLP 任务的性能 BERT 如何站在巨人的肩膀上的?使用了哪些 NLP 已有的技术和思想?哪些是 BERT 的创新? 1标题 + 作者 BERT: Pre-trainin

[论文笔记]LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

引言 今天带来第一篇量化论文LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale笔记。 为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。 大语言模型已被广泛采用,但推理时需要大量的GPU内存。我们开发了一种Int8矩阵乘法的过程,用于Transformer中的前馈和注意力投影层,这可以将推理所需

【阅读文献】一个使用大语言模型的端到端语音概要

摘要 ssum框架(Speech Summarization)为了 从说话人的语音提出对应的文本二题出。 ssum面临的挑战: 控制长语音的输入捕捉 the intricate cross-mdoel mapping 在长语音输入和短文本之间。 ssum端到端模型框架 使用 Q-Former 作为 语音和文本的中介连接 ,并且使用LLMs去从语音特征正确地产生文本。 采取 multi-st