FREE:Feature Refinement for Generalized Zero-Shot Learning 中文版

2024-01-27 05:04

本文主要是介绍FREE:Feature Refinement for Generalized Zero-Shot Learning 中文版,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

摘要:

广义零样本学习(GZSL)已经取得了显著的进展,许多工作致力于克服视觉-语义领域差距和已知-未知偏差的问题。然而,大多数现有方法直接使用仅在ImageNet上训练的特征提取模型,忽略了ImageNet和GZSL基准之间的跨数据集偏差。这种偏差不可避免地导致GZSL任务的视觉特征质量较差,可能限制对已知和未知类别的识别性能。在本文中,我们提出了一种简单而有效的GZSL方法,称为广义零样本学习的特征细化(FREE),以解决上述问题。FREE采用了一个特征细化(FR)模块,将语义→视觉映射纳入统一的生成模型,以细化已知和未知类别样本的视觉特征。此外,我们提出了一种自适应边界中心损失(SAMC-loss),与语义循环一致性损失合作,引导FR学习与类别和语义相关的表示,并在FR中连接特征以提取完全细化的特征。在五个基准数据集上进行的大量实验证明了FREE相对于其基线和当前最先进方法的显著性能提升。我们的代码可在https://github.com/shiming-chen/FREE找到。

1.介绍

人工智能的一个关键挑战是从已见数据到未见场景的泛化机器学习模型。零样本学习(Zero-shot learning, ZSL)是一个典型的研究课题,旨在通过构建语义和视觉领域之间的映射关系,对未见类别的图像进行分类。通常基于这样一个假设,即已见和未见类别都可以通过一组语义向量(例如句子嵌入[45]和属性向量[26])在同一语义空间中描述。根据它们的分类范围,ZSL 方法可以分为传统 ZSL(CZSL)和广义 ZSL(GZSL)[58]。CZSL 旨在预测未见类别,而 GZSL 可以预测已见和未见类别。近年来,由于更为现实和具有挑战性,GZSL 吸引了更多关注。因此,本文也关注于 GZSL 设置。

GZSL 已经取得了显著的进展,许多工作都集中在解决视觉-语义领域差距[26,1,2,52,51,61]和已知-未知偏差[57,37,66,64,49,38,36,19]等问题上。通常会应用语义嵌入[33,8,31,66,34]或生成方法(例如变分自编码器(VAEs)[3,47]、生成对抗网络(GANs)[57,31,60,65,21,51]和生成流[49])来缓解这些挑战。

我们的一个重要观察是,尽管 GZSL 中仍存在不令人满意的性能,但这与跨数据集偏差[50]密切相关。GZSL 模型通常使用在 ImageNet[58]上预训练的卷积神经网络(CNN)骨干(例如 ResNet-101[16])从粗细粒度基准(例如 AWA1[26]和 CUB[53])中提取视觉特征。然而,数据集之间的交叉偏差,即数据收集过程可能被人为或系统因素所偏倚,可能导致两个数据集之间的分布不匹配,例如,CUB 数据集中有牛鹱鸟而 ImageNet 中没有。因此,直接从 ImageNet 转移知识到 GZSL 的新数据集而不进行进一步的序列学习是不明智的,因为跨数据集偏差会限制知识转移,并导致从 GZSL 基准中提取质量较差的视觉特征,如图1所示。此外,ImageNet 与 GZSL 基准之间的偏差越大,知识转移和特征提取的效果就越差。由于细粒度数据集(例如 CUB)存在更为明显的偏差,这些通常对于所有 GZSL 方法来说产生了较差的性能。

我们进一步在实验证实了跨数据集偏差对 GZSL 性能的负面影响。在[59]中,Xian 使用 GZSL 基准的已见类别微调了在 ImageNet 上预训练的 ResNet。微调前,f-VAEGAN 在 FLO 和 AWA2 上分别达到了 64.6% 和 63.5% 的调和平均,之后这些数字增加到了 75.1% 和 65.2%,如表4所示。然而,Xian 没有对此现象进行分析或讨论。此外,尽管微调可能在一定程度上缓解跨数据集偏差,但它不可避免地会导致其他更严重的问题,例如过拟合[17,28]。因此,在 GZSL 中妥善解决跨数据集偏差的问题变得非常必要。据我们所知,我们是第一个将其视为 GZSL 中的一个待解决问题,并在本文中加以解决。

为解决上述挑战,我们提出了一种新颖的 GZSL 方法,称为广义零样本学习的特征细化(FREE),以进一步提升 GZSL 的性能。实质上,FREE 在统一的生成模型中细化视觉特征,同时有益于语义→视觉学习、特征合成和分类。具体而言,我们以 f-VAEGAN[59]为基线,学习语义→视觉映射。为了改善已见和未见类别样本的视觉特征,我们使用一个特征细化(FR)模块,它可以与 f-VAEGAN 联合优化,从而有效地避免微调的缺点。由于类别标签信息是可用的,我们引入了自适应边界中心损失(SAMC-loss),明确鼓励类内紧凑性和类间分离性,可以适应不同数据集,即粗粒度和细粒度,并指导 FR 学习具有判别性的与类别相关

这篇关于FREE:Feature Refinement for Generalized Zero-Shot Learning 中文版的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/649125

相关文章

uva 10061 How many zero's and how many digits ?(不同进制阶乘末尾几个0)+poj 1401

题意是求在base进制下的 n!的结果有几位数,末尾有几个0。 想起刚开始的时候做的一道10进制下的n阶乘末尾有几个零,以及之前有做过的一道n阶乘的位数。 当时都是在10进制下的。 10进制下的做法是: 1. n阶位数:直接 lg(n!)就是得数的位数。 2. n阶末尾0的个数:由于2 * 5 将会在得数中以0的形式存在,所以计算2或者计算5,由于因子中出现5必然出现2,所以直接一

JavaEE7 Servlet 3.1(JSR 340)规范中文版

http://www.iteye.com/news/27727-jinnianshilongnian     Jave EE 7中的部分规范已正式获得批准通过,其中包括JSR340 Java Servlet 3.1规范,去年翻译了该规范,在此分享出来,希望对某些朋友有所帮助,不足之处请指正。   点击直接下载    在线版目录   Servlet3.1规范翻译

SAM2POINT:以zero-shot且快速的方式将任何 3D 视频分割为视频

摘要 我们介绍 SAM2POINT,这是一种采用 Segment Anything Model 2 (SAM 2) 进行零样本和快速 3D 分割的初步探索。 SAM2POINT 将任何 3D 数据解释为一系列多向视频,并利用 SAM 2 进行 3D 空间分割,无需进一步训练或 2D-3D 投影。 我们的框架支持各种提示类型,包括 3D 点、框和掩模,并且可以泛化到不同的场景,例如 3D 对象、室

速通GPT-3:Language Models are Few-Shot Learners全文解读

文章目录 论文实验总览1. 任务设置与测试策略2. 任务类别3. 关键实验结果4. 数据污染与实验局限性5. 总结与贡献 Abstract1. 概括2. 具体分析3. 摘要全文翻译4. 为什么不需要梯度更新或微调⭐ Introduction1. 概括2. 具体分析3. 进一步分析 Approach1. 概括2. 具体分析3. 进一步分析 Results1. 概括2. 具体分析2.1 语言模型

简单的Q-learning|小明的一维世界(3)

简单的Q-learning|小明的一维世界(1) 简单的Q-learning|小明的一维世界(2) 一维的加速度世界 这个世界,小明只能控制自己的加速度,并且只能对加速度进行如下三种操作:增加1、减少1、或者不变。所以行动空间为: { u 1 = − 1 , u 2 = 0 , u 3 = 1 } \{u_1=-1, u_2=0, u_3=1\} {u1​=−1,u2​=0,u3​=1}

简单的Q-learning|小明的一维世界(2)

上篇介绍了小明的一维世界模型 、Q-learning的状态空间、行动空间、奖励函数、Q-table、Q table更新公式、以及从Q值导出策略的公式等。最后给出最简单的一维位置世界的Q-learning例子,从给出其状态空间、行动空间、以及稠密与稀疏两种奖励函数的设置方式。下面将继续深入,GO! 一维的速度世界 这个世界,小明只能控制自己的速度,并且只能对速度进行如下三种操作:增加1、减

HumanNeRF:Free-viewpoint Rendering of Moving People from Monocular Video 翻译

HumanNeRF:单目视频中运动人物的自由视点绘制 引言。我们介绍了一种自由视点渲染方法- HumanNeRF -它适用于一个给定的单眼视频ofa人类执行复杂的身体运动,例如,从YouTube的视频。我们的方法可以在任何帧暂停视频,并从任意新的摄像机视点或甚至针对该特定帧和身体姿势的完整360度摄像机路径渲染主体。这项任务特别具有挑战性,因为它需要合成身体的照片级真实感细节,如从输入视频中可能

【机器学习 sklearn】特征筛选feature_selection

特征筛选更加侧重于寻找那些对模型的性能提升较大的少量特征。 继续沿用Titannic数据集,这次试图通过特征刷选来寻找最佳的特征组合,并且达到提高预测准确性的目标。 #coding:utf-8from __future__ import divisionimport sysreload(sys)sys.setdefaultencoding('utf-8')import timest

OWASP ZAP2.4.3使用指南(中文版)

OWASP ZAP是一款开源的web安全工具,它简单易用,与burp suite相似,主要功能包含了:代理、数据拦截修改、主动扫描、被动扫描、主动攻击、爬虫、fuzzing、渗透测试等。在国外安全圈和渗透测试领域应用非常广泛,在youtube上有许多关于ZAP的视频资料。与burp suite相比,前者是一款商业渗透测试工具,部分功能不能使用,国内的大部分使用者都使用的破解版,而ZAP是开源免费的

delphi : 窗体的close,free,destroy的区别

一、我用application.create(TForm2,Form2)语句,创建了Form2,可是调用了Form2.close后,重新调用Form2.show. 刚才所创建的Form2仍然存在。问为了节约资源,应该怎样使用close,free,destroy. 三者的关系是什么? 1、Action:=caFree。 2、 with TForm1.Create(Application) do