Encoder-Decoder-with-Atrous-Separable-Convolution-for-Semantic-Image-Segmentation

本文主要是介绍Encoder-Decoder-with-Atrous-Separable-Convolution-for-Semantic-Image-Segmentation,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

总结

when

  • ECCV 2018

what

  • 空间金字塔池模块或编码 - 解码器结构用于深度神经网络中解决语义分割任务。
  • 前一种网络能够通过利用多个速率和多个有效视场的过滤器或池化操作探测输入特征来编码多尺度上下文信息,而后一种网络可以通过逐渐恢复空间信息来捕获更清晰的对象边界。
  • 在这项工作中,我们建议结合两种方法的优点。具体来说,我们提出的模型DeepLabv3 +通过添加一个简单而有效的解码器模块来扩展DeepLabv3,以优化分割结果,尤其是沿着对象边界。我们进一步探索Xception模型并将深度可分离卷积应用于Atrous Spatial Pyramid Pooling和解码器模块,从而产生更快更强的编码器-解码器网络。
  • 我们证明了所提出的模型在PASCAL VOC 2012语义图像分割数据集上的有效性,并且在没有任何后处理的情况下在测试集上实现了89%的性能。我们的论文附有Tensorflow中提出的模型的公开参考实现。

who (动机)

  • 语义分割的目的是为图像中的每个像素分配语义标签[17,25,13,83,5],这是计算机视觉中的基本主题之一。 基于完全卷积神经网络[64,49]的深度卷积神经网络[41,38,64,68,70]显示出依赖于手工制作特征的系统在基准任务上的显着改进[28,65,36,39,22,79]。在这项工作中,我们考虑使用空间金字塔池模块[23,40,26]或编码器-解码器结构[61,3]进行语义分割的两种类型的神经网络,其中前者通过在不同的分辨率上汇集特征来捕获丰富的上下文信息。而后者能够获得锐利的物体边界。

  • 为了捕获多个尺度的上下文信息,DeepLabv3 [10]应用具有不同速率的几个并行的atrous卷积(称为Atrous Spatial Pyramid Pooling,或ASPP),而PSPNet [81]执行不同网格尺度的池化操作。即使在最后的特征映射中编码了丰富的语义信息,由于在网络主干内具有跨步操作的池化或卷积,因此缺少与对象边界相关的详细信息。通过应用atrous卷积来提取更密集的特征映射可以减轻这种情况。然而,考虑到现有神经网络[38,68,70,27,12]的设计和有限的GPU内存,提取比输入分辨率小8甚至4倍的输出特征映射在计算上是禁止的。以ResNet-101 [27]为例,当应用atrous卷积提取比输入分辨率小16倍的输出特征时,最后3个残余块(9层)内的特征必须扩大。更糟糕的是,如果需要比输入小8倍的输出特征,则会影响26个残余块(78层!)。因此,如果为这种类型的模型提取更密集的输出特征,则计算密集。另一方面,编码器 - 解码器模型[61,3]使其自身在编码器路径中更快地计算(因为没有特征被扩张)并且逐渐恢复解码器路径中的尖锐对象边界。试图结合两种方法的优点,我们建议通过结合多尺度上下文信息来丰富编码器 - 解码器网络中的编码器模块。

  • 特别是,我们提出的模型,称为DeepLabv3 +,通过添加一个简单但有效的解码器模块来扩DeepLabv3[10],以恢复对象边界,如图1所示。丰富的语义信息在DeepLabv3的输出中进行编码,带有atrous卷积允许人们根据计算资源的预算来控制编码器特征的密度。 此外,解码器模块允许详细的对象边界恢复。

img

  • 由于最近深度可分离卷积的成功[67,71,12,31,80],对于语义分割的任务我们也通过调整Xception模型[12]来探索这种操作,并在速度和准确性方面表现出改进,类似于[60],并将atrous可分离卷积应用于ASPP和解码器模块。最后,我们证明了所提出的模型在PASCAL VOC 2012语义分割基准测试中的有效性,并且在没有任何后处理的情况下在测试集上获得了89.0%的性能,从而创造了一种新的最新技术。

where

看点

  • 实验部分写的很精彩

创新点

  • 我们提出了一种新颖的编码器-解码器结构,它采用DeepLabv3作为功能强大的编码器模块和简单而有效的解码器模块。
  • 在我们提出的编码器 - 解码器结构中,可以通过atrous卷积任意控制提取的编码器特征的分辨率,以折中精度和运行时间,这对于现有的编码器解码器模型是不可能的。
  • 我们将Xception模型用于分割任务,并将深度可分离卷积应用于ASPP模块和解码器模块,从而产生更快更强的编码器-解码器网络。
  • 我们提出的模型在PASCAL VOC 2012数据集上获得了新的最新性能。我们还提供设计选择和模型变体的详细分析。
  • 我们公开提供基于Tensorflow的提议模型实现。

相关工作

这篇关于Encoder-Decoder-with-Atrous-Separable-Convolution-for-Semantic-Image-Segmentation的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/960493

相关文章

cubic convolution interpolation (三次卷积插值)

算法来源:Cubic convolution interpolation for digital image processing 文章只对一维情形进行分析,二维类似。 许多插值函数能够写成形式(其中是插值点,u是基函数(文章中叫插值核),h是采样间隔,是参数) 通过插值,用来近似。 cubic convolution interpolation 中插值核u定义为子区间(-2,

Colab/PyTorch - 004 Torchvision Semantic Segmentation

Colab/PyTorch - 004 Torchvision Semantic Segmentation 1. 源由2. 语义分割 - 应用2.1 自动驾驶2.2 面部分割2.3 室内物体分割2.4 地理遥感 3. 语义分割 - torchvision3.1 FCN 使用 ResNet-101 语义分割3.1.1 加载模型3.1.2 加载图像3.1.3 预处理图像3.1.4 网络的前向传播

【Image captioning】基于检测模型网格特征提取——以Sydeny为例

【Image captioning】基于检测模型网格特征提取——以Sydeny为例 今天,我们将重点探讨如何利用Faster R-CNN检测模型来提取Sydeny数据集的网格特征。具体而言,这一过程涉及通过Faster R-CNN模型对图像进行分析,进而抽取出关键区域的特征信息,这些特征在网格结构中被系统地组织和表示。下面,我将引导大家深入了解这一特征提取流程。 1. 数据的预处理

Devexpress的Image Picker的用法

一个好的界面离不开图标的润色,WPF是分辨率无关的,所以最好使用矢量图,而非png,jgp之类的图片,否则在不同的分辨率下,体验会不好。 1.打开Devexpress的imagepicker,点击VS的工具栏的按钮:扩展->DevExpress->WPF Controls V19.2.7->Run Image Picker,如下图:   2.打开之后如图所示: 3.选好需要的图标,

Query-Adaptive Late Fusion for Image Search and Person Re-identification阅读笔记

Query-Adaptive Late Fusion for Image Search and Person Re-identification 自适应查询的图像检索晚期融合 摘要:很多文献表明特征融合对图像检索是有效的。一般来说融合各种各样的特征会帮助查询到更多有效的结果。然而,我们不会提前知道,对于给定查询,哪个特征是有效的。故而判断特征的有效性极其重要。 本文提出了一种针对得分层的有效

Transformer模型详解04-Encoder 结构

文章目录 简介基础知识归一化作用常用归一化 残差连接 Add & NormFeed Forward组成 Encoder代码实现 简介 Transformer 模型中的 Encoder 层主要负责将输入序列进行编码,将输入序列中的每个词或标记转换为其对应的向量表示,并且捕获输入序列中的语义和关系。 具体来说,Transformer Encoder 层的作用包括: 词嵌入(Wo

imx6ul yocto project image build

1.系统环境 系统推荐:Ubuntu 14.04  ,2G RAM,Dual cores 硬盘空间:至少50G,多多益善 2.工具安装 $ sudo apt-get install gawk wget git-core diffstat unzip texinfo gcc-multilib build-essential chrpath socat libsdl1.2-dev $ s

Fast Visibility Restoration from a Single Color or Gray Level Image(Tarel)

1、去雾的基本原理       由于大气中悬浮颗粒的存在,场景光线到达传感器之前总是有一部分被散射折射掉,从而导致获取的图像质量退化,使得场景中目标的能见度变弱。去雾能提高对比度。基本原理是:尘雾图像可看做两部分构成:一是场景辐射,二是尘雾。只要正确估计出尘雾浓度图,然后从原图像中减去它,就可以得到无雾图。基本方法是基于中值滤波估计尘雾浓度(大气光幕,大气耗散函数),利用大气散射模型恢复无雾图。

论文解读:Self-Prompt Mechanism for Few-Shot Image Recognition

文章汇总 存在的问题 由于提示文本和图像特征之间固有的模态差异,常规的提示方法的性能受到限制。 动机 让视觉信息自己给自己提示 解决办法 SPM涉及到图像编码器跨空间和通道维度产生的固有语义特征的系统选择,从而产生自提示信息。随后,在将这种自提示信息反向传播到神经网络的更深层后,它有效地引导网络学习和适应新样本。 流程解读 作者的想法很简单,常规的方法都是用文本来指导Image E