本文主要是介绍【论文阅读】Semantic Segmentation with deep convolutional nets and fully connected CRFs,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
一、摘要
深度卷积神经网络(DCNN)最近在高级视觉任务中展示了最先进的性能,例如图像分类和对象检测。这项工作汇集了来自DCNN和概率图形模型的方法,用于解决像素级分类(也称为“语义图像分割”)的任务。我们表明DCNN最后一层的响应没有充分定位,无法进行精确的对象分割。这是由于非常不变的属性使DCNN有利于高级任务。
我们通过将最终DCNN层的响应与完全连接的条件随机场(CRF)相结合,克服了深度网络的这种不良定位特性。定性地说,我们的“DeepLab”系统能够以超出以前方法的精度水平定位分段边界。定量地,我们的方法在PASCAL VOC-2012语义图像分割任务中设置了新的现有技术,在测试集中达到71.6%的IOU准确度。
我们展示了如何有效地获得这些结果:仔细的网络重新利用和来自小波社区的“洞”算法的新应用允许在现代GPU上以每秒8帧的速度密集计算神经网络响应。
二、内容
(1)介绍
自LeCun等人(1998)以来,深度卷积神经网络(DCNN)一直是文档识别的首选方法,但最近才成为高级视觉研究的主流。在过去两年中,DCNN已经将计算机视觉系统的性能推向了各种高级问题的飙升,包括图像分类,对象检测,细粒度分类等。
这些作品中的一个共同主题是,采用端到端训练的DCNN比依赖精心设计的表示(如SIFT或HOG功能)的系统提供了惊人的更好结果。这种成功可部分归因于DCNN对局部图像变换的内置不变性,这支持了他们学习数据分层抽象的能力。虽然这种不变性对于高级视觉任务来说显然是理想的,但它可能会妨碍低级任务,例如姿势估计和语义分割 - 我们需要精确定位,而不是抽象空间细节。将DCNN应用于图像标记任务存在两个技术障碍:信号下采样和空间“不敏感”(不变性)。第一个问题涉及在每层标准DCNN处执行的最大池化和下采样('跨越')的重复组合所引起的信号分辨率的降低。相反,如Papandreou等人。 (2014),我们采用最初为有效计算未抽取离散小波变换而开发的'atrous'(带孔)算法(Mallat,1999)。这允许在方案中有效地密集计算DCNN响应,该方案比该问题的早期解决方案简单得多。
第二个问题涉及以下事实:从分类器获得以对象为中心的决策需要空间变换的不变性,从而固有地限制DCNN模型的空间精度。我们通过采用完全连接的条件随机场(CRF)来提高模型捕获精细细节的能力。条件随机场已广泛用于语义分割,以将由多路分类器计算的类分数与由像素和边或超像素的局部交互捕获的低级信息组合。尽管已经提出了更复杂的工作来模拟分段依赖性和/或分段的高阶依赖性,但我们使用Krähenbühl&Koltun(2011)提出的完全连接的成对CRF来实现其高效计算和捕获精细边缘的能力。细节,同时也满足远程依赖。该模型在Krähenbühl&Koltun(2011)中展示,大大提高了基于增强的像素级分类器的性能,在我们的工作中,我们证明了当它与DCNN结合时,它可以产生最先进的结果 - 基于像素级分类器。
我们的“DeepLab”系统的三个主要优点是(i)速度:凭借'atrous'算法,我们的密集DCNN以8 fps运行,而全连接CRF的平均场推断需要0.5秒,(ii)准确性:我们在PASCAL语义分段挑战中获得最先进的结果,超越了Mostajabi等人的第二最佳方法。 (2014)以7.2%的幅度和(iii)简单性:我们的系统由两个相当完善的模块,DCNN和CRF组成。
(2)相关工作
与Long et al。(2014)类似,我们的系统直接在像素表示上工作。这与现在在使用DCNN的语义分段中最常见的两阶段方法形成对比:这些技术通常使用自下而上的图像分割和基于DCNN的区域分类的级联,这使得系统存在前端分割系统的潜在错误。例如,Girshick等人(2014)和(Hariharan等人,2014b)采用(Arbeláez等人,2014; Uijlings等人,2013)提供的边界框提议( the bounding box proposals)和掩蔽区域( masked regions)作为DCNN输入,将形状信息引入分类过程中。同样,Mostajabi等人(2014)的作者依赖于超像素表示。这些工作的着名非DCNN前体是(Carreira等,2012)的二阶池化方法,该方法还为区域提供了标签(Carreira&Sminchisescu,2012)。 Cogswell et al(2014)在(Yadollahpour等人,2013)的基础上,做单分割时,探讨了一系列基于CRF的细分方案,(Carreira&Sminchisescu, 2012)也计算了这写提议。并利用DCNN对这些分段提议进行重新排序。尽管这种方法明确地试图处理前端分割算法的性质,但在基于CRF的分割算法中仍然没有明确利用DCNN分数:DCNN仅在事后应用,而它会在分割过程中直接使用其结果。
对于更接近我们方法的工作,其他几位研究人员已经考虑使用卷积计算的DCNN特征进行密集图像标记。首先是Farabet等人(2013),他们以多种图像分辨率应用DCNN,然后使用分割树来平滑预测结果;最近,Hariharan等人(2014a)提出在DCNN内连接计算的中间特征图以进行像素分类,Dai等人(
这篇关于【论文阅读】Semantic Segmentation with deep convolutional nets and fully connected CRFs的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!