零样本学习,大幅减少人工标注!马普所和北邮提出富含视觉信息的类别语义嵌入(CVPR 2022)...

本文主要是介绍零样本学习,大幅减少人工标注!马普所和北邮提出富含视觉信息的类别语义嵌入(CVPR 2022)...,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

关注公众号,发现CV技术之美

本文转自机器之心,作者北京邮电大学、马普所。

来自北京邮电大学、马普所等机构的研究者提出了类别嵌入发掘网络,提高了类别嵌入在视觉空间的完备性,对零样本学习中类别之间的知识转移有重要促进作用。

零样本学习旨在模仿人类的推理过程,利用可见类别的知识,对没有训练样本的不可见类别进行识别。类别嵌入(class embeddings)是描述类别语义和视觉特征的向量,能够实现知识在类别间的转移,因而在零样本学习中发挥着不可替代的作用。

46ff90038a58313739316f805c75e82f.png

零样本分类图解

如上图所示,由于属性(attributes)能够被不同类别共享,促进了知识在类别间的转移,因此是使用最广泛的类别嵌入。并在其他计算机视觉任务(如面部识别、细粒度分类、时尚趋势预测)中被广泛用作辅助信息。 

然而属性标注过程需要大量人力投入和专家知识,限制了零样本学习在新数据集上的拓展。此外,受限于人类的认知局限,其标注的属性无法遍历视觉空间,因而图像中一些具有辨别性的特征无法被属性捕捉,导致零样本学习效果不佳。

针对以上问题,来自北京邮电大学、马普所等机构的研究者提出了类别嵌入发掘网络(Visually-Grounded Semantic Embedding Network, VGSE),本文主要回答了两个问题:(1)如何从可见类图像中自动发掘具有语义和视觉特征的类别嵌入;(2)如何在没有训练样本的情况下,为不可见类别预测类别嵌入。

f5cc974b3866d6c8fcf5a30178c031a2.png

  • 论文链接: https://arxiv.org/abs/2203.10444

  • 代码链接: https://github.com/wenjiaXu/VGSE

为了充分挖掘不同类别之间共享的视觉特征,VGSE 模型将大量局部图像切片按其视觉相似度聚类形成属性簇,从图像底层特征中归纳不同类别实例所共享的视觉特征。此外 VGSE 模型提出类别关系模块,在少量外部知识源的辅助下学习类别关系,能够将知识从源类别转移到目标类别,为没有训练图像的目标类别预测其类别嵌入。相较于其他基于语料自动挖掘而获得的属性,VGSE 模型在 CUB、SUN、AWA2 等零样本分类数据集上取得非常有竞争力的结果。如下图所示,本文能够发掘与人工标注属性互补的视觉特征,提高类别嵌入在视觉空间的完备性,对零样本学习中类别之间的知识转移有重要促进作用。本论文已被 CVPR 2022 录用。

5d27489695e1deb9b6c7377ecd52d5f7.png

类别嵌入发掘模型

类别嵌入发掘模型 VGSE 的算法流程如下所示,该模型主要由两个模块组成:(1)切片聚类模块(Patch Clustering, PC)以训练数据集为输入,将图像切片聚类成不同的簇。(2)类别关系模块(Class Relation, CR)用于预测不可见类的语义嵌入。

917a6b8d84bda6aba600fe7ed4062d93.png

VGSE 模型结构图

切片聚类模块

由于属性通常出现在图像的局部区域,例如动物的身体部位、场景中物体的形状和纹理等,因此本文提出利用图像局部切片的聚类来发掘视觉属性簇。为了获得覆盖整个语义图像区域(例如动物头部)的图像块,切片聚类模块通过无监督紧凑分水岭分割算法 [4] 将图像分割成规则形状的区域,然后利用图像切片的视觉相似性进行聚类。

切片聚类模块是可微分的深度神经网络,给定图像切片,网络首先提取图像的特征,之后通过聚类层6a80ba387e5d1653079563b7f43418c8.png预测该特征被预测到每一个属性簇中的概率:

0f3e555d6073565e512958df537946d2.png

本文基于视觉相似性的聚类损失函数训练该聚类网络。强制图像切片ccd32a6edbc94572b23aab57bc956aa5.png及其相似切片集被聚类到同样的属性簇:

bf3f708320f646600ded92351c6870a4.png

为了增强类别嵌入的可辨别性,使其能够分辨类别之间的显著性差异,本文提出加入可辨别性信息,通过学习全连接层,将每张图片的预测映射为其类别预测概率,然后使用交叉熵损失训练模型:

0204ba3599775a3ab1c90eee50096b5c.png

本文旨在学习类别之间共享的属性簇,促进知识在类别之间的转移,因此鼓励属性簇蕴含类别之间的语义联系。为实现这个目标,通过学习全连接层S,将每张图片的嵌入映射为类别的语义标签(此处使用类别名称的 w2v 向量)。然后通过回归损失训练模型,以加强类别嵌入的语义联系:

c7477e1970e25b70fc68369196f34fde.png

最终,完整图像的图像嵌入是通过平均该图像中的所有切片的嵌入来计算得到:

73a8282dc7ae5c3476803c4f212a694b.png

而类别0e06e12dcd508c0e795b1e6c8259d231.png的嵌入由该类的所有图像嵌入平均而得:

b0e24a92be6e245725acf9b4b2daf3b1.png

类别关系模块

可见类的类别嵌入可以由切片聚类模块预测得到。但现实情况中存在着大量不可见类,其类别嵌入无法通过图像进行预测。由于语义相关的类别通常共享部分属性,例如熊猫和斑马共享 “黑白相间“属性,麋鹿和公牛都包含“角” 这一属性。本节提出学习可见类与不可见类之间的语义相似性,并通过语义相关的可见类来预测不可见类的嵌入。任何外部语义知识,例如 w2v、glove 等类别语义嵌入或人工标注的属性,都可以用来学习两个类之间的关系。下文以 w2v 为例说明所提出的类别关系发掘模块。

给定可见类的 w2v 语义标签,和不可见类别的语义标签,本节学习了相似性映射,其中表示目标类和第个源类别之间的相似性。相似性映射通过以下优化问题学习:

3dc59fdd4a66c17f4b0657083e758a26.png

其中,目标类别的属性值是所有源类别属性值的加权和。

实验结果

本文在三个通用零样本分类数据集(CUB、AWA2、SUN)上验证所提出方法的效果。

下图展示了在 AWA2 数据集中学习得到的属性簇。我们将 10,000 个图像切片的嵌入利用 t-SNE 映射到二维空间。本文采样了几个属性簇 (用相同颜色的点) 并在图中标记了来自该属性簇的图像切片。

404a5024e825d8270d61c9f6519e9c23.png

挖掘属性簇可视化结果

图中数据说明了以下几点:首先,可以观察到同一簇中的图像切片倾向于聚集在一起,且传达了一致的视觉信息,这表明图像嵌入提供了可辨别性信息。此外,几乎所有属性簇都包含来自多个类别的图像切片。例如,来自不同动物的条纹,虽颜色略有不同但纹理相似。这一现象表明本文学习的类别嵌入包含类间共享的信息。另一个有趣的观察是,本文提出的模型能够发现被人类标注忽略的视觉属性,可以增强人类标注属性的视觉完备性。

Table 1 展示了本文提出的类别嵌入 VGSE-SMO 与类别的 w2v 向量在三个数据集上的表现。为测试两种类别嵌入的能力,我们 f-VAEGAN-D2[5]等五种零样本分类模型上进行实验,结果表明本文提出的类别嵌入能够大幅度超越 w2v 向量的性能。

705aad69fc7b1cd48d187775677904ae.png

Table 2 在零样本分类任务上对比了本文提出的类别嵌入和其他几种语料挖掘属性方法的效果,结果表明本文的方法在仅使用 w2v 向量的情况下,效果要优于其他使用在线语料库的方法。

584e1429492598afe101c847f03f4682.png

如前所述,本文提出的类别关系模块可以使用多种外部语义知识学习类别相似度,Table 4 展示了使用不同语义知识的效果。

a4524c366db67bc8d3e0dafc7bdda982.png

本文进行用户调查探究所挖掘的类别嵌入的语义一致性和视觉一致性。随机挑选 50 个属性簇,并展示聚类中心的 30 张图片。用户首先被要求观察属性簇的示例图片。然后回答如下问题衡量属性簇的效果。

4c7033efc6d16f143cdd687886eb4d13.png

用户调查界面

结果表明,在 88.5% 和 87.0% 的情况下,用户认为本方法所挖掘的属性簇传达出一致的视觉和语义信息。

总结

为减少零样本学习所需的人工标注,提高类别嵌入的语义和视觉完备性,本文提出一个自动的类别嵌入发掘网络 VSGE 模型,能够利用图像切片的视觉相似性发掘类别嵌入。在三个数据集上的结果表明,本文提出的类别嵌入方案能够有效地提高语义嵌入的质量,并且可以挖掘出人类难以标注的细粒度属性。除了在零样本学习中发挥重要作用,本文所提出的类别嵌入也能够为其它属性相关研究提供新思路。

参考文献:

[1] Al-Halah, Ziad, and Rainer Stiefelhagen. "Automatic discovery, association estimation and learning of semantic attributes for a thousand categories." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017.

[2] Mikolov, Tomas, et al. "Distributed representations of words and phrases and their compositionality." Proceedings of the Advances in neural information processing systems. 2013.

[3] Wang, Xiaolong, Yufei Ye, and Abhinav Gupta. "Zero-shot recognition via semantic embeddings and knowledge graphs." Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.

[4] Neubert, Peer, and Peter Protzel. "Compact watershed and preemptive slic: On improving trade-offs of superpixel segmentation algorithms." Proceedings of the IEEE International Conference on Pattern Recognition. 2014.

[5] Xian, Yongqin, et al. "f-vaegan-d2: A feature generating framework for any-shot learning." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019.

END,入群👇备注:零样本

4c84eb00800495af0f699c2209643300.png

这篇关于零样本学习,大幅减少人工标注!马普所和北邮提出富含视觉信息的类别语义嵌入(CVPR 2022)...的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/763343

相关文章

在C#中获取端口号与系统信息的高效实践

《在C#中获取端口号与系统信息的高效实践》在现代软件开发中,尤其是系统管理、运维、监控和性能优化等场景中,了解计算机硬件和网络的状态至关重要,C#作为一种广泛应用的编程语言,提供了丰富的API来帮助开... 目录引言1. 获取端口号信息1.1 获取活动的 TCP 和 UDP 连接说明:应用场景:2. 获取硬

SpringBoot使用Apache Tika检测敏感信息

《SpringBoot使用ApacheTika检测敏感信息》ApacheTika是一个功能强大的内容分析工具,它能够从多种文件格式中提取文本、元数据以及其他结构化信息,下面我们来看看如何使用Ap... 目录Tika 主要特性1. 多格式支持2. 自动文件类型检测3. 文本和元数据提取4. 支持 OCR(光学

C#实现获取电脑中的端口号和硬件信息

《C#实现获取电脑中的端口号和硬件信息》这篇文章主要为大家详细介绍了C#实现获取电脑中的端口号和硬件信息的相关方法,文中的示例代码讲解详细,有需要的小伙伴可以参考一下... 我们经常在使用一个串口软件的时候,发现软件中的端口号并不是普通的COM1,而是带有硬件信息的。那么如果我们使用C#编写软件时候,如

通过C#获取PDF中指定文本或所有文本的字体信息

《通过C#获取PDF中指定文本或所有文本的字体信息》在设计和出版行业中,字体的选择和使用对最终作品的质量有着重要影响,然而,有时我们可能会遇到包含未知字体的PDF文件,这使得我们无法准确地复制或修改文... 目录引言C# 获取PDF中指定文本的字体信息C# 获取PDF文档中用到的所有字体信息引言在设计和出

C#读取本地网络配置信息全攻略分享

《C#读取本地网络配置信息全攻略分享》在当今数字化时代,网络已深度融入我们生活与工作的方方面面,对于软件开发而言,掌握本地计算机的网络配置信息显得尤为关键,而在C#编程的世界里,我们又该如何巧妙地读取... 目录一、引言二、C# 读取本地网络配置信息的基础准备2.1 引入关键命名空间2.2 理解核心类与方法

使用JavaScript将PDF页面中的标注扁平化的操作指南

《使用JavaScript将PDF页面中的标注扁平化的操作指南》扁平化(flatten)操作可以将标注作为矢量图形包含在PDF页面的内容中,使其不可编辑,DynamsoftDocumentViewer... 目录使用Dynamsoft Document Viewer打开一个PDF文件并启用标注添加功能扁平化

使用 Python 和 LabelMe 实现图片验证码的自动标注功能

《使用Python和LabelMe实现图片验证码的自动标注功能》文章介绍了如何使用Python和LabelMe自动标注图片验证码,主要步骤包括图像预处理、OCR识别和生成标注文件,通过结合Pa... 目录使用 python 和 LabelMe 实现图片验证码的自动标注环境准备必备工具安装依赖实现自动标注核心

使用Python检查CPU型号并弹出警告信息

《使用Python检查CPU型号并弹出警告信息》本教程将指导你如何编写一个Python程序,该程序能够在启动时检查计算机的CPU型号,如果检测到CPU型号包含“I3”,则会弹出一个警告窗口,感兴趣的小... 目录教程目标方法一所需库步骤一:安装所需库步骤二:编写python程序步骤三:运行程序注意事项方法二

PostgreSQL如何查询表结构和索引信息

《PostgreSQL如何查询表结构和索引信息》文章介绍了在PostgreSQL中查询表结构和索引信息的几种方法,包括使用`d`元命令、系统数据字典查询以及使用可视化工具DBeaver... 目录前言使用\d元命令查看表字段信息和索引信息通过系统数据字典查询表结构通过系统数据字典查询索引信息查询所有的表名可

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert