精读Relational Embedding for Few-Shot Classification (ICCV 2021)

2024-02-15 05:44

本文主要是介绍精读Relational Embedding for Few-Shot Classification (ICCV 2021),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Relational Embedding for Few-Shot Classification (ICCV 2021)

一、摘要

该研究提出了一种针对少样本分类问题的新方法,通过元学习策略来学习“观察什么”和“在哪里关注”。这种方法依赖于两个关键模块:自相关表示(SCR)和交叉相关注意力(CCA),来分别处理图像内部和图像之间的关系模式。

  • 自相关表示(SCR)模块:用于捕捉单个图像内的结构化模式,通过转换基础特征图为自相关张量,从而提取出图像内部的关系信息。
  • 交叉相关注意力(CCA)模块:旨在学习不同图像之间的关系,通过计算和学习两个图像表示之间的交叉相关性,以及它们之间的共同注意力。

这两个模块被集成在关系嵌入网络(RENet)中,该网络能够端到端地学习图像的关系嵌入。这种关系嵌入有助于在处理少样本学习任务时,更好地识别和分类图像。

在四个广泛使用的少样本分类基准数据集(miniImageNet, tieredImageNet, CUB-200-2011, 和CIFAR-FS)上的实验评估显示,该方法与现有的最先进方法相比,取得了一致的性能提升。

简而言之,这项研究通过深入挖掘图像内外的关系模式,为解决少样本分类问题提供了一种新的视角和有效方法。

二、引言

该研究针对少样本图像分类问题,提出了一种基于关系模式学习的新方法。这种方法通过元学习深度嵌入函数来解决从极少量样本中学习新视觉概念的挑战,同时克服了传统方法中的过拟合问题。研究的核心理念是,相比于单个特征模式,关系模式(即元模式)具有更好的泛化能力,因为一个项目的意义是通过与系统中其他项目的比较来获得的。基于这个原理,提出了从关系角度学习“观察什么”和“在哪里关注”的策略,并将其融合以生成少样本学习的关系嵌入。

解决方案主要包含两个模块:

  1. 自相关表示(SCR)模块:转换基础表示为自相关张量,并学习从中提取结构化模式,捕获特征图中每个激活与其邻域的相关性,从而编码丰富的语义结构。
  2. 交叉相关注意力(CCA)模块:计算两个图像表示之间的交叉相关性,并从中学习产生共注意力,捕捉两图像间的语义对应关系。

这两个模块的结合,以端到端的方式学习关系嵌入,旨在图像内部提取自相关模式(通过SCR),在图像之间生成关系注意力(通过CCA),并整合这些信息来产生用于少样本分类的嵌入。通过在几个标准数据集上的实验验证,该方法有效地提高了少样本图像分类的准确性,展示了利用图像内部和图像间关系模式的强大能力。

三、相关工作

在“相关工作”部分,作者概述了针对少样本分类问题的现有方法,并将这些方法大致分为三类:基于度量的方法、基于优化的方法和基于迁移学习的方法。此外,该部分还特别讨论了自相关和交叉相关的概念及其在视觉任务中的应用,从而为提出的方法提供了理论和技术背景。

少样本分类方法的三种主要方向:

  1. 基于度量的方法:旨在学习将图像映射到一个度量空间的嵌入函数,其中图像对的相关性基于它们之间的距离来区分。这是作者所采用的方法。
  2. 基于优化的方法:通过元学习的方式,学习如何根据少量支持样本在线快速更新模型。
  3. 基于迁移学习的方法:表明通过早期的预训练和随后的微调,标准的迁移学习程序对于使用深度骨干网络进行少样本学习是一个强大的基线。

特殊关注的技术概念:

  • 自相关(Self-correlation):通过测量图像内局部区域与其邻域的相似性,揭示图像的结构布局。近期的工作将自相关作为深度神经网络中的中间特征转换,证明它有助于学习有效的语义对应、图像翻译和视频理解的表示。
  • 交叉相关(Cross-correlation):长期以来被用作计算机视觉中广泛的对应相关问题的核心组件。近期的少样本分类方法采用查询和每个支持之间的交叉相关,以识别分类的相关区域,但这些方法常常受到外观变化大导致的不可靠相关的影响。

本文贡献的总结:

  • 提出了用于少样本分类的自相关表示方法,从图像内部提取可迁移的结构模式。
  • 提出了用于少样本分类的交叉相关注意力模块,通过卷积滤波学习图像之间的可靠共注意力。
  • 在四个标准基准数据集上的实验显示,本文方法达到了最先进的水平,且通过消融研究验证了组件的有效性。

这一部分为读者提供了该研究背景的深入理解,展示了其相对于现有工作的创新点和优势,特别是在处理自相关和交叉相关以提高少样本分类性能方面的新颖贡献。

四、Renet的整体架构

在这里插入图片描述

在少样本学习和元学习领域,"episodes"的概念是模仿人类学习方式而设计的一种训练策略。这种策略旨在让模型通过处理多个小任务(即episodes),来提高其对新任务的适应能力,尤其是在数据量有限的情况下。每个episode都旨在模拟一个小的学习任务,包含从多个类别中选取的少量样本,这些样本被分为support set和query set。

Support Set

Support set(支持集合)包含了一定数量的样本和对应的标签,这些样本代表了当前episode中模型需要学习的类别。在N-way K-shot任务中,support set包含了N个类别,每个类别有K个样本,模型使用这些有标签的样本来学习或调整其参数。

Query Set

Query set(查询集合)包含了另外一些样本(不包括在support set中),模型需要使用在support set上学到的知识来预测这些样本的标签。这些样本用于评估模型在学习了support set提供的信息后,对未见过的样本进行分类的能力。

Episodes 的工作流程

  1. 采样:在训练阶段,从整个训练数据集中随机选择N个类别,并从每个类别中随机选择K个样本构成support set,再选择更多的样本构成query set。

  2. 学习:模型使用support set中的样本和标签来学习或调整其参数。

  3. 测试:然后,模型在query set上进行测试,使用它在support set上学到的知识来预测query set中样本的类别。

  4. 迭代:此过程重复进行,每次都从数据集中采样不同的类别和样本来构建新的episodes,以此方式模型经历了多种不同的学习任务,目的是提高其泛化能力。

为什么使用Episodes

使用episodes的目的是让模型能够适应在只有少量样本可用时对新类别进行学习和分类的场景,即模拟真实世界中经常遇到的学习情况。这种方法尤其适用于少样本学习和元学习任务,因为它强调了模型从每个任务中快速适应和学习的能力,而不是在海量数据上进行长时间的训练。通过这种方式,模型能够在面对新类别时,更好地泛化其之前学到的知识。

五、SCR模块:增强特征

在这里插入图片描述

六、CCA模块

在这里插入图片描述

七、dataset

在评估中,我们使用四个标准基准数据集来进行小样本分类:miniImageNet、tieredImageNet、CUB-200-2011(简称CUB)和CIFAR-FS。

miniImageNet

  • 来源:miniImageNet是ImageNet的一个子集,由72个研究提出。它包含60,000张图像,这些图像均匀分布在100个对象类别中。
  • 数据集划分:训练/验证/测试划分分别包含64/16/20个对象类别。

tieredImageNet

  • 特点:tieredImageNet是一个挑战性的数据集,由55个研究提出。其训练/验证/测试划分在ImageNet层次结构的超类别上是不相交的,这通常要求比其他数据集更好的泛化能力。
  • 数据集划分:各自的训练/验证/测试划分包含20/6/8个超类别,这些超类别是351/97/160个子类别的超集。

CUB-200-2011 (CUB)

  • 应用:CUB是用于鸟类细粒度分类的数据集,由73个研究提出。它包含100/50/50个对象类别的训练/验证/测试划分。
  • 特殊处理:遵循最近的研究[80, 84],我们使用预裁剪到人工标注的边界框的图像。

CIFAR-FS

  • 基础:CIFAR-FS是基于CIFAR-100数据集构建的,由3个研究提出。遵循最近的研究[3],我们使用相同的训练/验证/测试划分,分别包含64/16/20个对象类别。

在这里插入图片描述
未完待续…

这篇关于精读Relational Embedding for Few-Shot Classification (ICCV 2021)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/710551

相关文章

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言

BERT 论文逐段精读【论文精读】

BERT: 近 3 年 NLP 最火 CV: 大数据集上的训练好的 NN 模型,提升 CV 任务的性能 —— ImageNet 的 CNN 模型 NLP: BERT 简化了 NLP 任务的训练,提升了 NLP 任务的性能 BERT 如何站在巨人的肩膀上的?使用了哪些 NLP 已有的技术和思想?哪些是 BERT 的创新? 1标题 + 作者 BERT: Pre-trainin

SAM2POINT:以zero-shot且快速的方式将任何 3D 视频分割为视频

摘要 我们介绍 SAM2POINT,这是一种采用 Segment Anything Model 2 (SAM 2) 进行零样本和快速 3D 分割的初步探索。 SAM2POINT 将任何 3D 数据解释为一系列多向视频,并利用 SAM 2 进行 3D 空间分割,无需进一步训练或 2D-3D 投影。 我们的框架支持各种提示类型,包括 3D 点、框和掩模,并且可以泛化到不同的场景,例如 3D 对象、室

GPU 计算 CMPS224 2021 学习笔记 02

并行类型 (1)任务并行 (2)数据并行 CPU & GPU CPU和GPU拥有相互独立的内存空间,需要在两者之间相互传输数据。 (1)分配GPU内存 (2)将CPU上的数据复制到GPU上 (3)在GPU上对数据进行计算操作 (4)将计算结果从GPU复制到CPU上 (5)释放GPU内存 CUDA内存管理API (1)分配内存 cudaErro

速通GPT-3:Language Models are Few-Shot Learners全文解读

文章目录 论文实验总览1. 任务设置与测试策略2. 任务类别3. 关键实验结果4. 数据污染与实验局限性5. 总结与贡献 Abstract1. 概括2. 具体分析3. 摘要全文翻译4. 为什么不需要梯度更新或微调⭐ Introduction1. 概括2. 具体分析3. 进一步分析 Approach1. 概括2. 具体分析3. 进一步分析 Results1. 概括2. 具体分析2.1 语言模型

2021-8-14 react笔记-2 创建组件 基本用法

1、目录解析 public中的index.html为入口文件 src目录中文件很乱,先整理文件夹。 新建components 放组件 新建assets放资源   ->/images      ->/css 把乱的文件放进去  修改App.js 根组件和index.js入口文件中的引入路径 2、新建组件 在components文件夹中新建[Name].js文件 //组件名首字母大写

2021-08-14 react笔记-1 安装、环境搭建、创建项目

1、环境 1、安装nodejs 2.安装react脚手架工具 //  cnpm install -g create-react-app 全局安装 2、创建项目 create-react-app [项目名称] 3、运行项目 npm strat  //cd到项目文件夹    进入这个页面  代表运行成功  4、打包 npm run build

论文精读-Supervised Raw Video Denoising with a Benchmark Dataset on Dynamic Scenes

论文精读-Supervised Raw Video Denoising with a Benchmark Dataset on Dynamic Scenes 优势 1、构建了一个用于监督原始视频去噪的基准数据集。为了多次捕捉瞬间,我们手动为对象s创建运动。在高ISO模式下捕获每一时刻的噪声帧,并通过对多个噪声帧进行平均得到相应的干净帧。 2、有效的原始视频去噪网络(RViDeNet),通过探

[SWPUCTF 2021 新生赛]web方向(一到六题) 解题思路,实操解析,解题软件使用,解题方法教程

题目来源 NSSCTF | 在线CTF平台因为热爱,所以长远!NSSCTF平台秉承着开放、自由、共享的精神,欢迎每一个CTFer使用。https://www.nssctf.cn/problem   [SWPUCTF 2021 新生赛]gift_F12 这个题目简单打开后是一个网页  我们一般按F12或者是右键查看源代码。接着我们点击ctrl+f后快速查找,根据题目给的格式我们搜索c

天然药物化学史话:“四大光谱”在天然产物结构鉴定中的应用-文献精读46

天然药物化学史话:“四大光谱”在天然产物结构鉴定中的应用,天然产物化学及其生物合成必备基础知识~ 摘要 天然产物化学研究在药物研发中起着非常重要的作用,结构研究又是天然产物化学研究中最重要的工作之一。在天然药物化学史话系列文章的基础上,对在天然产物结构研究中起绝对主导作用的“四大光谱”分析技术,即红外光谱、紫外光谱、质谱、核磁共振波谱在天然产物结构鉴定中的应用历史进行回顾与总结,并对其发展