CVPR2018 | CMU谷歌Spotlight论文:超越卷积的视觉推理框架

本文主要是介绍CVPR2018 | CMU谷歌Spotlight论文:超越卷积的视觉推理框架,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

人类在看到图像时可以进行合理的推理与预测,而目前的神经网络系统却还难以做到。近日,来自卡耐基梅隆大学(CMU)的陈鑫磊(现 Facbook 研究科学家)、Abhinav Gupta,谷歌的李佳、李飞飞等人提出了一种新型推理框架,其探索空间和语义关系的推理性能大大超过了普通卷积神经网络。目前该工作已被评为 CVPR 2018 大会 Spotlight 论文。

近年来,我们在图像分类 [ 16 ]、检测 [ 37 ] 或分割 [ 3 ] 等标准识别任务方面取得了显著进展,前馈端到端学习的 ConvNet 模型的使用在其中发挥了很大作用。空间和语义上的视觉推理对人类至关重要 [ 1 ],但我们目前的视觉系统与之不同,除了具有较大接受域的卷积之外,它们都缺乏语境推理。因此,当我们着眼于构建下一代视觉系统时,如何结合空间推理和语义推理就成为一个关键问题。

我们的目标是建立一个系统,该系统不仅可以提取、利用卷积特征的层次结构,还可以通过空间和语义关系来改进其判断。但什么是空间和语义关系?如何使用它们来提高识别能力?请看图 1。图 1 左上角是一个空间推理的实例:如果一行中四分之三的区域是「窗户」,那么第四个区域也可能是「窗户」。语义推理的一个实例(右下图)是识别「校车」,即使图中可见的校车很少或基本看不见——仅仅给出了「公交车」的实例及公交车与校车之间的联系。最后,空间-语义推理可以解释为:识别道路上的「汽车」应有助于识别「汽车」内的「人」。

图 1. 除了具有较大接受域的卷积之外,当前的识别系统缺乏推理能力,而人类可以通过探索空间、语义关系的丰富空间进行推理:例如,即使在有遮挡的情况下,人类也能推断出第四个「窗户」,或者驾驶「汽车」的「人」。为了弥补这一差距,我们提出了一个通用框架,该框架也使用上述关系进行迭代推理及预测。

 

利用关系进行推理的一个关键方法是迭代地进行预测。最近,已经有人尝试通过自顶向下的模块 [ 38,48 ] 或使用外显记忆 [ 51,32 ] 来整合这种推理。在使用自顶向下的模块时,具有基于类的信息的高层次特征可以与低层次特征结合使用,以提高识别性能。另一种架构是使用外显记忆。例如,Chen 和 Gupta [ 4 ] 展示了序贯对象检测,其中空间存储器用于存储先前检测到的对象,利用 ConvNets 的能力来提取有利于后续检测的密集语境模式。

然而,这些方法存在两个问题: a ) 两种方法都使用卷积堆栈来执行局部像素级推理 [ 11 ],该方式可能不具备允许更远区域直接传递信息的全局推理能力;b ) 更重要的是,这两种方法都假定训练数据中有足够的关系实例供模型从头开始学习,但是随着类数量的增加,关系呈指数级增长,数据可能出现短缺。许多语义推理需要从很少或近乎为零的实例中学习 [ 14 ]。因此,我们需要设法利用额外的结构化信息进行视觉推理。

本研究提出了一个空间推理和语义推理的通用框架。与目前仅依赖卷积的方法不同,我们的框架还可以从知识库 [ 5,56 ] 形式的结构化信息中学习视觉识别。我们算法的核心由两个模块组成,一个是基于空间记忆 [ 4 ] 的局部模块,利用 ConvNets 进行像素级推理。我们借助并行内存更新来大幅度提高效率。另一个是基于图结构的全局模块,用于在局部区域之外进行推理。

该模块由三个部分组成:

  1. 知识图,在该图中,我们将类表示为节点并建立边来编码它们之间不同类型的语义关系;
  2. 当前图像的区域图,在该图中,节点代表图像中的区域,边代表这些区域之间的空间关系;
  3. 将区域分配给类的分配图。

利用这种结构,我们开发了一个推理模块,专门用来传递该图中的信息。局部模块和全局模块两者迭代地转出并相互交叉馈送预测,以便细化预测。注意,局部推理和全局推理不是孤立的:良好的图像理解通常需要平衡先验学习的背景知识和图像特定观察之间的关系。因此,我们的完整管道通过「关注」[3] 机制连接了两个模块的力量,从而使模型在进行最终预测时能够依赖最相关的特征。

我们的框架展示了大大超越普通 ConvNets 的性能。例如,我们可以在 ADE [ 55 ] 上实现 8.4 % 的绝对提升,这是按每级平均精度衡量的,而通过加深网络仅可以提高约 1 %。

图 2. 推理框架示意图

除了用于提供预测的普通 ConvNet 之外,该框架还有两个模块来执行推理:一个是使用空间存储器 Si 的局部模块 ( Sec. 3.1 ),该模块使用另一个 ConvNet C 进行推理;另一个是全局模块 (Sec. 3.2),该模块将区域和类视为图中的节点,通过在它们之间传递信息进行推理。这两个模块都接收组合的高级和中级特征,在交叉馈送信念的同时迭代地转出 ( Sec. 3.3 )。结合所有预测 fi 与注意 ai 产生最终预测 f(Sec. 3.4)。

图 3. 在具有多种类型的边的图形上直接传递信息的图示。图中的四个节点由两种类型的边进行连接。每个节点表示输入特征向量 mi (合称 M )。为边类型 j 学习加权矩阵 Wj 以变换输入。然后应用邻接矩阵 Aj 将信息传递给连接的节点。最后,通过累加所有边类型并应用激活函数来生成输出 G。

图 4. 在全局推理模块 R 中使用了两种推理路径。获得区域和类输入 M_r 和 M_c 之后,空间路径在区域图中直接传递信息,区域图含有区域到区域的边 E_r→r,而语义路径首先将区域分配给含有 E_r→c 的类,然后将信息传递给具有类到类边 E_c→c 的其他类,再传播回去。组合最终输出以生成输出区域特征 G_r。

表 1. 在 ADE test-1k 和 VG 测试中的主要结果。AP 是平均精度,AC 是分类精度。上标显示了高于基线的值。

图 5. 来自 ADE test-1k 的定性示例(最好放大来看)。

 

在突出显示的蓝色区域可以看出基线预测和我们的模型预测比较的结果。此外还列出了其他区域以提供语境。例如,经过推理后,「右腿」与「左腿」的混淆程度降低(左上图);尽管分辨率很低,但「桌面」上的「鼠标」被成功判断出来 (上面一行第三张图);「洗涤剂分配器」在「洗衣机」(右上图) 的语境中被识别出来。在右下角的图中,我们展示了一个失败案例,在该图中,语境没有帮助我们识别出「遥控器」,失败的原因可能是它以前从未出现在「床头柜」上,也没有语义关系可以提供帮助。

 

论文:Iterative Visual Reasoning Beyond Convolutions

论文链接:https://arxiv.org/abs/1803.11189

摘要:我们提出了一种新的迭代视觉推理框架。该框架超越了目前只具备卷积堆栈推理能力的识别系统。该框架由两个核心模块组成:一个是局部模块,使用空间记忆以并行更新的方式存储以前的信念;另一个是全局图形推理模块。我们的图模块由三个部分组成: a ) 知识图,在该图中,我们将类表示为节点并建立边来编码它们之间不同类型的语义关系;b ) 当前图像的区域图,在该图中,节点代表图像中的区域,边代表这些区域之间的空间关系;c ) 将区域分配给类的分配图。局部模块和全局模块迭代地转出并相互交叉馈送预测,以便细化预测。通过将两个模块中的最佳部分与注意机制相结合来进行最终预测。与普通 ConvNets 相比,我们的框架性能显著增强,例如,按每级平均精度衡量,我们可以在 ADE 上实现 8.4 % 的绝对改进。分析还表明,该框架对缺失区域具有较强的推理能力。

这篇关于CVPR2018 | CMU谷歌Spotlight论文:超越卷积的视觉推理框架的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/920115

相关文章

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

cross-plateform 跨平台应用程序-03-如果只选择一个框架,应该选择哪一个?

跨平台系列 cross-plateform 跨平台应用程序-01-概览 cross-plateform 跨平台应用程序-02-有哪些主流技术栈? cross-plateform 跨平台应用程序-03-如果只选择一个框架,应该选择哪一个? cross-plateform 跨平台应用程序-04-React Native 介绍 cross-plateform 跨平台应用程序-05-Flutte

Spring框架5 - 容器的扩展功能 (ApplicationContext)

private static ApplicationContext applicationContext;static {applicationContext = new ClassPathXmlApplicationContext("bean.xml");} BeanFactory的功能扩展类ApplicationContext进行深度的分析。ApplicationConext与 BeanF

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

数据治理框架-ISO数据治理标准

引言 "数据治理"并不是一个新的概念,国内外有很多组织专注于数据治理理论和实践的研究。目前国际上,主要的数据治理框架有ISO数据治理标准、GDI数据治理框架、DAMA数据治理管理框架等。 ISO数据治理标准 改标准阐述了数据治理的标准、基本原则和数据治理模型,是一套完整的数据治理方法论。 ISO/IEC 38505标准的数据治理方法论的核心内容如下: 数据治理的目标:促进组织高效、合理地

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

ZooKeeper 中的 Curator 框架解析

Apache ZooKeeper 是一个为分布式应用提供一致性服务的软件。它提供了诸如配置管理、分布式同步、组服务等功能。在使用 ZooKeeper 时,Curator 是一个非常流行的客户端库,它简化了 ZooKeeper 的使用,提供了高级的抽象和丰富的工具。本文将详细介绍 Curator 框架,包括它的设计哲学、核心组件以及如何使用 Curator 来简化 ZooKeeper 的操作。 1

【Kubernetes】K8s 的安全框架和用户认证

K8s 的安全框架和用户认证 1.Kubernetes 的安全框架1.1 认证:Authentication1.2 鉴权:Authorization1.3 准入控制:Admission Control 2.Kubernetes 的用户认证2.1 Kubernetes 的用户认证方式2.2 配置 Kubernetes 集群使用密码认证 Kubernetes 作为一个分布式的虚拟

Spring Framework系统框架

序号表示的是学习顺序 IoC(控制反转)/DI(依赖注入): ioc:思想上是控制反转,spring提供了一个容器,称为IOC容器,用它来充当IOC思想中的外部。 我的理解就是spring把这些对象集中管理,放在容器中,这个容器就叫Ioc这些对象统称为Bean 用对象的时候不用new,直接外部提供(bean) 当外部的对象有关系的时候,IOC给它俩绑好(DI) DI和IO

Sentinel 高可用流量管理框架

Sentinel 是面向分布式服务架构的高可用流量防护组件,主要以流量为切入点,从限流、流量整形、熔断降级、系统负载保护、热点防护等多个维度来帮助开发者保障微服务的稳定性。 Sentinel 具有以下特性: 丰富的应用场景:Sentinel 承接了阿里巴巴近 10 年的双十一大促流量的核心场景,例如秒杀(即突发流量控制在系统容量可以承受的范围)、消息削峰填谷、集群流量控制、实时熔断下游不可用应