论文阅读《A simple neural network module for relational reasoning》

2023-10-14 12:40

本文主要是介绍论文阅读《A simple neural network module for relational reasoning》,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、重点单词理解

inherently 本质地
statistical 统计的
cylinder 圆柱体
generalize 概括、推广、笼统
sparse 稀疏
explicit 易于理解的
implicit 含蓄的
plug-and-play 即插即用
exploit 利用
state 情况,状态
versatility 用途广泛
substantial 非常,大量,总的来说
sustainable 可持续
composite 混合的
intractable 棘手
hinge on 依赖
simulate 模拟
comprise 构成,包括
omitted 删除

二.《A simple neural network module for relational reasoning》

    关系推理(relation reasoning)是一般智能行为的核心组成部分,但已证明神经网络较难以学习。文章提出因为深度学习是以稀疏而复杂的关系映射作为基础,所以训练需要海量的数据,看似简单的推理问题对神经网络(CNNs MLPs)来说是非常困难的。
    因此本文作者提出并设计了一个用于关系推理的RN模块,并描述了如何使用RN网络作为一种即插即用的Model,并从根本上解决关系推理问题,其可以嵌入到任何需要处理与关系推理有关系的任务的神经网络之中。在该文中,作者对于三项任务中测试了RN网络,分别是CLEVR数据集进行视觉问题回答(VQA),bAbI数据集进行基于文本的问题回答;以及关于动态物理系统的复杂推理。

(1)关系网络(Relation Networks)**

①RN网络的函数形式
    RN是一种神经网络模块,具有为关系推理准备的结构。RNs背后的设计理念是约束神经网络的功能形式,以便捕捉关系推理的核心共同属性。RN最简单的形式是一个复合函数:
在这里插入图片描述 (公式一)
    由论文中可以得知,该网络的输入是一组对象,oi 表示第i个对象,而和和分别是带有参数和的函数,这里的f和g都是MLP(多层感知机),作者把的输出作为关系,即用来推断两个对象之间是否相关。
②RN网络的优点
    作者指出,RN网络的优点有三种,分别为RN能够推断出关系,RN的数据很高效以及RN是以一种独特不变的形式作为输入,即输入是对象的集合。
    I. RN能够推断出关系,关系式1中的函数形式表明RN应该考虑所有对象之间的潜在关系。RN不一定知道实际存在哪些对象关系,也不一定知道任何特定关系的实际含义。因此RN必须学会推断对象关系的存在和含义。用图论的话来说,可以将输入视为一个完整的有向图,其节点是对象,并且其边表示应考虑其关系的对象对,并且RN可以将仅应考虑的那些对的列表作为输入。
    II. RN处理数据很高效,RN使用单个函数来计算每个关系,对一批对象进行操作的单个函数。一个MLP将同时接收来自该对象集的所有对象作为其输入。n个对象,就要嵌入n2个参数来匹配所有的对象。但在RN中,由于有函数,将被每个对象集的n2前向学习所代替,并只学习一次关系函数。
    III. RN是对对象的集合进行操作。公式1中的求和确保了RN对输入中对象的顺序不变,并确保RN输出是顺序不变的。最终,这种不变性确保RN的输出包含通常代表对象集中存在的关系的信息。

(3)任务

    作者将RN增强网络应用于各种依赖于关系推理的任务。为了演示这些网络的多功能性,我们选择了来自许多不同领域的任务,包括视觉QA,基于文本的QA和动态物理系统。
    ①CLEVER数据集是在之前大多数视觉QA数据集都需要在没有完全指定的词汇词汇的情况下进行推理,含有含糊之处,并表现出强烈的语言偏见,而不需要推理关于视觉输入等条件上开发产生的。作者使用了CLEVER的两个版本像素版本和状态描述版本。
    ②Sort-of-CLEVR数据集,为论证RN架构更适合一般的关系推理,作者构建了一个类似于CLEVR的数据集,称之为“Sort-of-CLEVR”。这个数据集重点分离了关系问题和非关系问题。
    ③bAbI数据集,bAbI是一个纯粹的基于文本的QA数据集。
    ④动态物理系统(DHS数据集),作者和使用MuJoCo物理引擎开发了模拟物理质量弹簧系统的数据集。
(4)RN网络模型结构
    如图2.3所示,与基本的VQA网络结构类似,图片采用CNN网络提取特征,
问题采用LSTM网络提取句子中的语义信息,并将二者的数据通过并求和,最后通过f函数输入结果。作者的主要贡献在于证明灵活性,可以将相对非结构化的输入(例如CNN或LSTM嵌入)视为RN的一组对象。 尽管RN希望将对象表示形式作为输入,但是无需指定对象的语义。

图2.3 视觉QA网络结构

    ①对像素的处理,文中把 128128 的图像作为输入,通过4个卷积层卷积后得到 dd*k 的特征图,我们把每个 k 维的 d²的单元作为一个对象,(图上图所示的红,黄,蓝三种对象,k = 5)我们把所有通道上的像素值作为一个“对象”。这样处理意味着“对象”可以包括背景、纹理以及物理对象等,为模型的学习提供了极大的灵活性。
②带有问题嵌入条件的RN网络,对象关系的存在和含义应该与问题相关。因此作者调整了RN结构,公式为:
在这里插入图片描述 (公式二)
    其中,q是新增加的参数,为了得到嵌入q的问题,作者使用了处理问题单词的LSTM的最终状态。向疑问词分配了唯一的整数,然后将其用于索引可学习的查找表,该表为LSTM提供了嵌入。在每个时间步长,LSTM都会根据英语编码问题的语法将单个单词嵌入作为输入,与之前的对象合并作为一个新的“对象”。
    ③状态描述的处理:是一个状态描述矩阵,矩阵中的每一行都包含单个对象的特征,三维坐标(x,y,z);颜色(r,g,b);形状(立方体,圆柱体等);材料(橡胶,金属等);大小(小,大等)。对于这种数据形式的处理和上面对问题嵌入的处理相似:问题通过 LSTM 使用单个单词的可学习查找嵌入进行,并且 LSTM 的最终状态连接到每个对象对。
    ④自然语言的处理:对于 bAbI 数据集,首先要指出的是与视觉QA不同的是,我认为不需要用到CNN层,即需要先把自然语言输入转化为一组对象。作者指出在用 LSTM 处理问题句子之前,需要先在支持集合中确定 20 个句子,然后,作者用指示它们在支持集中的相对位置的标签标记这些句子,并用 LSTM 逐字处理每个句子,这样设置的话调用了最少的先验知识,因为作者将对象描述为句子,将这些句子作为该任务的 中 RN 模块输入的“对象”,可以说句子处理-LSTM的最终状态被认为是一个对象。

(5)结论

    关系网络是一种简单而强大的学习方法,可用于在复杂的现实世界中执行丰富的结构化推理。该文展示了如何将RN网络应用到更广泛的深度学习体系结构中,以显着提高需要丰富关系推理的任务的性能。RN为灵活的关系推理提供了一个更强大的机制,并且释放了CNN更专注于处理局部空间结构,输入数据和目标目标函数没有指定内部对象表示的任何特定形式或语义。这表明RN即使在非结构化输入和输出情况下也具有丰富的结构化推理能力。。并且作者指出未来的工作应该将RN应用于各种可以从结构学习和开发中受益的问题,如RL代理中丰富的场景理解,社交网络建模和抽象问题解决。

这篇关于论文阅读《A simple neural network module for relational reasoning》的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/210580

相关文章

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

poj 2349 Arctic Network uva 10369(prim or kruscal最小生成树)

题目很麻烦,因为不熟悉最小生成树的算法调试了好久。 感觉网上的题目解释都没说得很清楚,不适合新手。自己写一个。 题意:给你点的坐标,然后两点间可以有两种方式来通信:第一种是卫星通信,第二种是无线电通信。 卫星通信:任何两个有卫星频道的点间都可以直接建立连接,与点间的距离无关; 无线电通信:两个点之间的距离不能超过D,无线电收发器的功率越大,D越大,越昂贵。 计算无线电收发器D

uva 10014 Simple calculations(数学推导)

直接按照题意来推导最后的结果就行了。 开始的时候只做到了第一个推导,第二次没有继续下去。 代码: #include<stdio.h>int main(){int T, n, i;double a, aa, sum, temp, ans;scanf("%d", &T);while(T--){scanf("%d", &n);scanf("%lf", &first);scanf

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

OmniGlue论文详解(特征匹配)

OmniGlue论文详解(特征匹配) 摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super

软件架构模式:5 分钟阅读

原文: https://orkhanscience.medium.com/software-architecture-patterns-5-mins-read-e9e3c8eb47d2 软件架构模式:5 分钟阅读 当有人潜入软件工程世界时,有一天他需要学习软件架构模式的基础知识。当我刚接触编码时,我不知道从哪里获得简要介绍现有架构模式的资源,这样它就不会太详细和混乱,而是非常抽象和易

BERT 论文逐段精读【论文精读】

BERT: 近 3 年 NLP 最火 CV: 大数据集上的训练好的 NN 模型,提升 CV 任务的性能 —— ImageNet 的 CNN 模型 NLP: BERT 简化了 NLP 任务的训练,提升了 NLP 任务的性能 BERT 如何站在巨人的肩膀上的?使用了哪些 NLP 已有的技术和思想?哪些是 BERT 的创新? 1标题 + 作者 BERT: Pre-trainin