【论文阅读】Semantic Segmentation with deep convolutional nets and fully connected CRFs

本文主要是介绍【论文阅读】Semantic Segmentation with deep convolutional nets and fully connected CRFs,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

 

 

 

一、摘要

深度卷积神经网络(DCNN)最近在高级视觉任务中展示了最先进的性能,例如图像分类和对象检测。这项工作汇集了来自DCNN和概率图形模型的方法,用于解决像素级分类(也称为“语义图像分割”)的任务。我们表明DCNN最后一层的响应没有充分定位,无法进行精确的对象分割。这是由于非常不变的属性使DCNN有利于高级任务。
我们通过将最终DCNN层的响应与完全连接的条件随机场(CRF)相结合,克服了深度网络的这种不良定位特性。定性地说,我们的“DeepLab”系统能够以超出以前方法的精度水平定位分段边界。定量地,我们的方法在PASCAL VOC-2012语义图像分割任务中设置了新的现有技术,在测试集中达到71.6%的IOU准确度。
我们展示了如何有效地获得这些结果:仔细的网络重新利用和来自小波社区的“洞”算法的新应用允许在现代GPU上以每秒8帧的速度密集计算神经网络响应。

二、内容

(1)介绍

自LeCun等人(1998)以来,深度卷积神经网络(DCNN)一直是文档识别的首选方法,但最近才成为高级视觉研究的主流。在过去两年中,DCNN已经将计算机视觉系统的性能推向了各种高级问题的飙升,包括图像分类,对象检测,细粒度分类等。
 
这些作品中的一个共同主题是,采用端到端训练的DCNN比依赖精心设计的表示(如SIFT或HOG功能)的系统提供了惊人的更好结果。这种成功可部分归因于DCNN对局部图像变换的内置不变性这支持了他们学习数据分层抽象的能力。虽然这种不变性对于高级视觉任务来说显然是理想的,但它可能会妨碍低级任务,例如姿势估计和语义分割 - 我们需要精确定位,而不是抽象空间细节。将DCNN应用于图像标记任务存在两个技术障碍:信号下采样和空间“不敏感”(不变性)。第一个问题涉及在每层标准DCNN处执行的最大池化和下采样('跨越')的重复组合所引起的信号分辨率的降低。相反,如Papandreou等人。 (2014),我们采用最初为有效计算未抽取离散小波变换而开发的'atrous'(带孔)算法(Mallat,1999)。这允许在方案中有效地密集计算DCNN响应,该方案比该问题的早期解决方案简单得多。
第二个问题涉及以下事实:从分类器获得以对象为中心的决策需要空间变换的不变性,从而固有地限制DCNN模型的空间精度。我们通过采用完全连接的条件随机场(CRF)来提高模型捕获精细细节的能力。条件随机场已广泛用于语义分割,以将由多路分类器计算的类分数与由像素和边或超像素的局部交互捕获的低级信息组合。尽管已经提出了更复杂的工作来模拟分段依赖性和/或分段的高阶依赖性,但我们使用Krähenbühl&Koltun(2011)提出的完全连接的成对CRF来实现其高效计算和捕获精细边缘的能力。细节,同时也满足远程依赖。该模型在Krähenbühl&Koltun(2011)中展示,大大提高了基于增强的像素级分类器的性能,在我们的工作中,我们证明了当它与DCNN结合时,它可以产生最先进的结果 - 基于像素级分类器。
我们的“DeepLab”系统的三个主要优点是(i)速度:凭借'atrous'算法,我们的密集DCNN以8 fps运行,而全连接CRF的平均场推断需要0.5秒,(ii)准确性:我们在PASCAL语义分段挑战中获得最先进的结果,超越了Mostajabi等人的第二最佳方法。 (2014)以7.2%的幅度和(iii)简单性:我们的系统由两个相当完善的模块,DCNN和CRF组成

(2)相关工作

与Long et al。(2014)类似,我们的系统直接在像素表示上工作。这与现在在使用DCNN的语义分段中最常见的两阶段方法形成对比:这些技术通常使用自下而上的图像分割和基于DCNN的区域分类的级联,这使得系统存在前端分割系统的潜在错误。例如,Girshick等人(2014)和(Hariharan等人,2014b)采用(Arbeláez等人,2014; Uijlings等人,2013)提供的边界框提议( the bounding box proposals)和掩蔽区域( masked regions)作为DCNN输入,将形状信息引入分类过程中。同样,Mostajabi等人(2014)的作者依赖于超像素表示。这些工作的着名非DCNN前体是(Carreira等,2012)的二阶池化方法,该方法还为区域提供了标签(Carreira&Sminchisescu,2012)。 Cogswell et al(2014)在(Yadollahpour等人,2013)的基础上,做单分割时,探讨了一系列基于CRF的细分方案,(Carreira&Sminchisescu, 2012)也计算了这写提议。并利用DCNN对这些分段提议进行重新排序。尽管这种方法明确地试图处理前端分割算法的性质,但在基于CRF的分割算法中仍然没有明确利用DCNN分数:DCNN仅在事后应用,而它会在分割过程中直接使用其结果。

对于更接近我们方法的工作,其他几位研究人员已经考虑使用卷积计算的DCNN特征进行密集图像标记。首先是Farabet等人(2013),他们以多种图像分辨率应用DCNN,然后使用分割树来平滑预测结果;最近,Hariharan等人(2014a)提出在DCNN内连接计算的中间特征图以进行像素分类,Dai等人(

这篇关于【论文阅读】Semantic Segmentation with deep convolutional nets and fully connected CRFs的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1054226

相关文章

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

OmniGlue论文详解(特征匹配)

OmniGlue论文详解(特征匹配) 摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super

软件架构模式:5 分钟阅读

原文: https://orkhanscience.medium.com/software-architecture-patterns-5-mins-read-e9e3c8eb47d2 软件架构模式:5 分钟阅读 当有人潜入软件工程世界时,有一天他需要学习软件架构模式的基础知识。当我刚接触编码时,我不知道从哪里获得简要介绍现有架构模式的资源,这样它就不会太详细和混乱,而是非常抽象和易

BERT 论文逐段精读【论文精读】

BERT: 近 3 年 NLP 最火 CV: 大数据集上的训练好的 NN 模型,提升 CV 任务的性能 —— ImageNet 的 CNN 模型 NLP: BERT 简化了 NLP 任务的训练,提升了 NLP 任务的性能 BERT 如何站在巨人的肩膀上的?使用了哪些 NLP 已有的技术和思想?哪些是 BERT 的创新? 1标题 + 作者 BERT: Pre-trainin

[论文笔记]LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

引言 今天带来第一篇量化论文LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale笔记。 为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。 大语言模型已被广泛采用,但推理时需要大量的GPU内存。我们开发了一种Int8矩阵乘法的过程,用于Transformer中的前馈和注意力投影层,这可以将推理所需

【阅读文献】一个使用大语言模型的端到端语音概要

摘要 ssum框架(Speech Summarization)为了 从说话人的语音提出对应的文本二题出。 ssum面临的挑战: 控制长语音的输入捕捉 the intricate cross-mdoel mapping 在长语音输入和短文本之间。 ssum端到端模型框架 使用 Q-Former 作为 语音和文本的中介连接 ,并且使用LLMs去从语音特征正确地产生文本。 采取 multi-st