从少数示例中泛化:介绍小样本学习(Few-shot Learning,FSL)

2024-05-01 06:04

本文主要是介绍从少数示例中泛化:介绍小样本学习(Few-shot Learning,FSL),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

🍉 CSDN 叶庭云https://yetingyun.blog.csdn.net/


论文题目:Generalizing from a Few Examples: A Survey on Few-shot Learning(ACM Computing Surveys,中科院 1 区)

在这里插入图片描述

这篇综述论文的主题是 “从少数示例中泛化:小样本学习综述”。它探讨了小样本学习(Few-shot Learning,FSL)领域,旨在理解当数据集较小时,如何使机器学习模型能够快速泛化到新任务。

核心论点:

  • FSL 是一种有前景的机器学习范式,它专门处理训练集中只有少量带标签样本的情况。
  • FSL 的核心问题在于经验风险最小化器的不可靠性,这使得在小样本场景下学习变得困难
  • 利用先验知识,FSL 方法可以从数据、模型和算法三个维度来有效解决前述核心问题。

采用的研究方法:

  • 论文首先明确了 FSL 的正式定义,并详细区分了 FSL 与其他相关机器学习问题之间的差异。
  • 通过错误分解分析,作者揭示了小样本监督学习的核心问题。
  • 对现有的 FSL 工作进行了全面的文献回顾,并根据如何利用先验知识处理核心问题,从数据、模型和算法三个视角对 FSL 方法进行了分类。

小样本学习与其他相关机器学习问题是通过对它们的定义、目标和挑战进行比较来区分的。以下是论文中提到的一些关键点,用于区分 FSL 与其他学习问题:

  1. 定义:FSL 是一种机器学习问题,其中目标任务(T)的训练集(E)只包含少量的监督信息样本。这与典型的机器学习应用不同,后者通常需要大量的监督信息样本。

  2. 经验风险最小化:在 FSL 中,由于训练样本数量很少,经验风险最小化器(即基于训练数据优化的模型)可能不可靠,这与在大数据集上进行学习的情况不同。

  3. 先验知识的作用FSL 特别强调利用先验知识来解决核心问题,即在少量样本情况下如何有效地学习和泛化。先验知识可以来自多种来源,包括但不限于多任务学习、嵌入学习、外部记忆和生成式建模。

  4. 与相关学习问题的比较

    • 弱监督学习:处理的是包含弱监督信息(如不完整、不准确或噪声标签)的经验 E,而 FSL 专注于使用少量的监督信息样本。
    • 不平衡学习:处理的是经验 E 中标签 y 的分布不均衡的问题,而 FSL 关注的是即使在其他类别的样本数量很少的情况下,如何对少数类别进行有效学习。
    • 迁移学习:涉及将从一个领域或任务学到的知识迁移到另一个领域或任务,而 FSL 是在目标任务上只有少量样本的情况下进行学习。
    • 元学习(Meta-learning):学会学习,通过跨任务学习来提高新任务的性能,FSL 可以视为元学习的一个应用场景,特别是在处理少量样本时。
  5. 问题设置:FSL 问题设置通常涉及 N-way K-shot 分类,即每个类别有 K 个样本,共有 N 个类别。这种设置在其他类型的机器学习问题中不常见。

  6. 挑战:FSL 面临的挑战是在少量样本上学习到泛化能力强的模型,这在传统的机器学习问题中不作为主要考虑。

通过上述比较,论文明确了 FSL 的独特性和它在机器学习领域中的定位。FSL 的关键在于如何利用少量样本和丰富的先验知识来提高学习性能和泛化能力。论文还通过错误分解分析来阐述小样本监督学习问题的核心挑战,这一分析基于有监督机器学习中的理论框架。具体来说,论文采用了以下步骤来识别和解释 FSL 中的关键问题:

  1. 期望风险与经验风险:首先,论文区分了期望风险(expected risk)和经验风险(empirical risk)。期望风险是模型在所有可能输入上的平均损失,而经验风险是模型在训练集上的平均损失。在机器学习中,由于真实的数据分布是未知的,通常使用经验风险作为优化目标

  2. 风险最小化:在数据量充足的情况下,可以通过经验风险最小化(Empirical Risk Minimization,ERM)来找到一个近似最优的模型。然而,在 FSL 问题中,由于训练样本数量有限,经验风险可能无法很好地代表期望风险。

  3. 错误分解:论文利用错误分解(error decomposition)的概念来进一步分析问题。总误差可以分解为近似误差(approximation error)和估计误差(estimation error)两部分。近似误差衡量假设空间(hypothesis space)中函数与真实函数之间的差异,而估计误差衡量由于使用经验风险代替期望风险而导致的误差。

  4. 小样本问题的核心:在 FSL 中,由于训练样本数量很少,即使模型的近似误差很小,估计误差也可能很大。这意味着,即使模型在训练集上表现良好,它在未见过的测试集上的性能也可能很差。这种现象称为过拟合(overfitting),其中经验风险最小化器(ERM)在小样本情况下变得不可靠。

  5. 核心问题的指出:因此,FSL 的核心问题在于经验风险最小化器在小样本情况下不可靠。这是因为在小样本限制下,模型很容易对训练数据中的噪声和特例过度敏感,从而导致过拟合。

通过上述分析,论文明确了小样本学习问题的核心挑战,并为如何利用先验知识来解决这一挑战提供了理论基础。具体来说,FSL 方法可以通过增加训练样本数量(数据视角)、减小假设空间的复杂性(模型视角),或改进搜索最佳假设的算法(算法视角)来应对这一核心问题。得出的结果总结为:

  • 数据视角:使用先验知识增强训练数据,以获得更可靠的经验风险最小化器。
  • 模型视角:利用先验知识减小假设空间的大小,使得在少量样本下也能学习到可靠的模型。
  • 算法视角:使用先验知识改变搜索最佳假设的策略,如提供良好的初始化参数或直接学习优化器。

最终结论:FSL 作为一种关键技术,有助于缩小 AI 与人类学习之间的差距。通过整合先验知识,它使机器学习模型在有限的监督信息下也能学习和泛化到新任务。论文还探讨了 FSL 在未来研究方向,包括问题设置、技术、应用和理论等方面的潜力。

研究局限性:

  • 论文中提及的 FSL 方法多依赖于人为设计的假设空间和搜索策略,这在一定程度上限制了其通用性和灵活性。
  • 目前,多数 FSL 方法假定任务源自单一的任务分布,但在实际情境中,任务间的相关性可能并不明确或难以预测。
  • 关于动态任务分布以及多模态信息在 FSL 中的潜在应用,当前研究尚显不足,需要进一步的探索和研究。

后续研究方向建议:

  • 研究在设计 FSL 方法时如何利用多模态信息,从而提供具有互补视角的先验知识。
  • 探讨将自动化机器学习(AutoML)方法应用于 FSL 中,旨在实现更加经济、高效和有效的算法设计。
  • 分析 FSL 算法在动态任务分布下的收敛性,并研究如何有效避免灾难性遗忘
  • 对 FSL 的样本复杂度进行理论探讨,同时深入探索 FSL 与领域适应之间的潜在联系。

参考论文:Wang, Y., Yao, Q., Kwok, J. T., & Ni, L. M. (2020). Generalizing from a few examples: A survey on few-shot learning. ACM computing surveys (csur), 53(3), 1-34.

这篇关于从少数示例中泛化:介绍小样本学习(Few-shot Learning,FSL)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/950875

相关文章

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

性能测试介绍

性能测试是一种测试方法,旨在评估系统、应用程序或组件在现实场景中的性能表现和可靠性。它通常用于衡量系统在不同负载条件下的响应时间、吞吐量、资源利用率、稳定性和可扩展性等关键指标。 为什么要进行性能测试 通过性能测试,可以确定系统是否能够满足预期的性能要求,找出性能瓶颈和潜在的问题,并进行优化和调整。 发现性能瓶颈:性能测试可以帮助发现系统的性能瓶颈,即系统在高负载或高并发情况下可能出现的问题

水位雨量在线监测系统概述及应用介绍

在当今社会,随着科技的飞速发展,各种智能监测系统已成为保障公共安全、促进资源管理和环境保护的重要工具。其中,水位雨量在线监测系统作为自然灾害预警、水资源管理及水利工程运行的关键技术,其重要性不言而喻。 一、水位雨量在线监测系统的基本原理 水位雨量在线监测系统主要由数据采集单元、数据传输网络、数据处理中心及用户终端四大部分构成,形成了一个完整的闭环系统。 数据采集单元:这是系统的“眼睛”,

Hadoop数据压缩使用介绍

一、压缩原则 (1)运算密集型的Job,少用压缩 (2)IO密集型的Job,多用压缩 二、压缩算法比较 三、压缩位置选择 四、压缩参数配置 1)为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器 2)要在Hadoop中启用压缩,可以配置如下参数

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}