Collective Affinity Learning for Partial Cross-Modal Hashing(CALM)--文献翻译

本文主要是介绍Collective Affinity Learning for Partial Cross-Modal Hashing(CALM)--文献翻译,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

摘要

        在过去的十年中,已经开发了各种无监督哈希方法用于跨模态检索。然而,在实际应用中,每个模态数据都可能遭受一些缺失样本的影响,这通常是不完整的情况。大多数现有工作假设每个对象都出现在两种模态中,因此它们可能不适用于部分多模态数据。为了解决这个问题,我们提出了一种新颖的集体亲和学习方法(CALM),它集体和自适应地学习锚图,用于在部分多模态数据上生成二进制代码。在 CALM 中,我们首先共同构建特定于模态的二部图,并推导出一个概率模型来计算每个模态的完整数据到锚点的亲和力。理论分析揭示了它恢复丢失的邻接信息的能力。此外,提出了一种稳健的模型,通过自适应地学习统一的锚图来融合这些特定于模态的亲和力。然后,来自学习到的锚图的邻域信息作为反馈,指导之前的亲和力重建过程。为了解决公式化的优化问题,我们进一步开发了一种具有线性时间复杂度和快速收敛的有效算法。最后,对融合的亲和力进行锚图哈希(AGH)以进行跨模态检索。基准数据集的实验结果表明,我们提出的 CALM 始终优于现有方法。

        

挑战与困难

        由于数据的复杂分布和组织[1]-[3],跨未标记的异构模式检索相似或相关实体的任务已变得具有挑战性。异质性在许多多媒体应用中已经无处不在[4]、[5],因为数据通常是从各种特征提取器收集的或从不同的领域获得的。每组特征都可以被认为是一种特定的模态[6],[7]。例如,视频可以用视觉和音频信息来表示;图像可以用颜色和形状来表示;一个网页可以用图像、文字和 Urls来表示。

两个挑战

        1、不完整的特定于模式的信息。如果我们为两种模态学习统一的表示,则可以保证相似关系或哈希码的模态间一致性。然而,尽管它对学习表示有潜在的贡献,但所有缺失样本引起的不完整信息都被浪费了。

        2、无根据的多模态一致性。如果我们分别学习特定于模态的表示,则可以削弱由缺失样本引起的不利影响,因为学习过程是在每个模态上独立进行的。但是,对于出现在两种模态中的对象,如何保证上述相似关系或哈希码的模态间一致性仍不清楚。

 

        图 1. (a) 完整和 (b) 部分多模态数据的散列说明。相同的形状表示相同的模态,相同的颜色表示相同的类别/语义标签。黑色斜线表示相应的样本实际上是缺失的。

      如图 1(a) 所示。他们假设每个对象的不同模态在多模态数据中共存。然而,在现实世界的跨模态检索应用程序中,每种模态都可能存在一些缺失样本,这会导致部分多模态数据,如图 1(b) 所示。例如,网页上的某些图片可能由于用户删除而无法访问,网页上的某些 URL 可能成为无效链接。

1、提出了一种有效的无监督学习策略,称为集体亲和学习方法 (CALM),用于部分跨模态散列。 CALM的整个框架包括三个交替的模块:集体亲和力重建、自适应亲和力融合和邻域信息反馈。

2、我们推导出一个概率模型,通过对应关系共同重建缺失的亲和力。由不完整的模态特定信息引起的第一个挑战是通过集体亲和力重建来解决的。

3、我们开发了一种强大的算法来自适应地融合不同模态的邻接信息。第二个挑战是通过具有线性时间复杂度和快速收敛的自适应亲和融合有效地解决了不必要的模态间一致性。

4、我们利用融合邻接的邻域信息作为反馈来指导亲和力重建,为CALM设计了一种自引导机制。

        假设有 n 个人具有不同的专业背景。对于一个新颖的概念,他们的意见可能不同且互补。然后,每个人都可以通过 CL 获得新的知识并纠正他/她的先前知识。集体学习有三个关键组成部分:

        1、学习过程的目的是让每个人最后都有一个完整的知识。因此,CL应该是所有人知识的统一。

        2、每个人可能更喜欢听少数志同道合的人的意见。因此,“邻居”会影响所学知识的质量。

        3、学习应该是动态的以及邻里信息。学习过程和“邻居”的更新应该迭代整合。

图 2 说明了整个框架。受 CL 的启发,我们提出的 CALM 具有三个设计模块:

        1、第 III-B 节侧重于如何重建涉及缺失样本的亲和力。它们在对应关系(图 2 中的虚线)的指导下由模态内的亲和性共同重构,即对象的不同模态是同源的。这对应于人类集体学习的第一个关键组成部分。

        2、第 III-C 节自适应地学习统一的锚点图,以便融合这些计算的来自不同模态的数据到锚点的亲和力。因此保证了相似性关系和散列码的模态间一致性。这类似于人类集体学习的第二个关键组成部分

        3、第 III-D 节建议通过使用邻域信息作为集体亲和力重建的反馈,使 CALM 成为一个自我引导的框架。这就像人类集体学习的第三个关键组成部分。

  B.集体亲和力重建

   假设给定 n 个具有两种异构媒体类型的对象。

 不相关为0,相关则需要计算其二分图。则xi和uj之间的数据到锚点的亲和性通过公式计算。

         这两个矩阵本质上是不同的,必然会影响下一步学习具有统一亲和力的锚图。

        C.自适应亲和融合

        其中 α 2 是正则化参数。很明显,在我们的最终模型(8)中没有明确的权重参数需要预定义。在等式(8)中,似乎不同的模态具有相同的权重。有人可能想知道“权重自适应”是什么意思。我们将其推迟到第 IV-A 节,其中还将描述优化过程。         

        在第 IV-A 节中,我们将揭示我们对模型 (8) 的优化在迭代期间自动学习权重,这在无监督任务中具有显着优势。同时,第 IV-A 节将讨论如何通过为每个对象选择适当数量的最近锚对来确定参数 α 的值。

D. 邻里信息反馈

 学习一个统一的锚点图,并以自适应方式为每个对象选择 k 个最近的锚点对。学习到的anchor graph的邻域信息可以作为反馈。通过邻域信息的反馈,集体亲和力重建(Section III-B)和自适应亲和力融合(Section III-C)以自我引导的方式迭代集成。

结论和未来工作

        1、提出了一种新颖的基于 CALM 的无监督散列框架,用于部分跨模态检索。具体来说,首先共同构建涉及缺失样本的特定模态二部图。然后,我们在对应关系的帮助下计算完整的数据到锚点的亲和力。为了进一步融合两种模态的邻接信息,提出了一种具有线性时间复杂度和快速收敛的自适应算法。最后,来自融合锚图的邻域信息指导之前的亲和力重建。我们对融合的亲和力进行锚图哈希(AGH)以进行跨模态检索。在基准数据集上进行的大量实验表明,我们提出的 CALM 比现有方法具有更好的性能。

        2、至于未来的工作,可能会有更有效的部分多模态数据框架。第一节中提到的两个不同的挑战并没有彻底解决。关于集体学习的策略,数据驱动和知识驱动的方法相结合可能是有前途的。

     

方法大致过程总结

        首先利用不完备的数据样本构造特定模态的二分图,然后通过相对应的样本关联关系计算出每个数据样本与锚点样本之间的相似度图,最后利用融合的相似度关系在缺失数据上生成二值哈希码。最后利用生成的二值哈希码与原数据直接量化得到哈希码表进行比对进行跨模态检索

          

这篇关于Collective Affinity Learning for Partial Cross-Modal Hashing(CALM)--文献翻译的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/458127

相关文章

cross-plateform 跨平台应用程序-03-如果只选择一个框架,应该选择哪一个?

跨平台系列 cross-plateform 跨平台应用程序-01-概览 cross-plateform 跨平台应用程序-02-有哪些主流技术栈? cross-plateform 跨平台应用程序-03-如果只选择一个框架,应该选择哪一个? cross-plateform 跨平台应用程序-04-React Native 介绍 cross-plateform 跨平台应用程序-05-Flutte

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

excel翻译软件有哪些?如何高效提翻译?

你是否曾在面对满屏的英文Excel表格时感到头疼?项目报告、数据分析、财务报表... 当这些重要的信息被语言壁垒阻挡时,效率和理解度都会大打折扣。别担心,只需3分钟,我将带你轻松解锁excel翻译成中文的秘籍。 无论是职场新人还是老手,这一技巧都将是你的得力助手,让你在信息的海洋中畅游无阻。 方法一:使用同声传译王软件 同声传译王是一款专业的翻译软件,它支持多种语言翻译,可以excel

【阅读文献】一个使用大语言模型的端到端语音概要

摘要 ssum框架(Speech Summarization)为了 从说话人的语音提出对应的文本二题出。 ssum面临的挑战: 控制长语音的输入捕捉 the intricate cross-mdoel mapping 在长语音输入和短文本之间。 ssum端到端模型框架 使用 Q-Former 作为 语音和文本的中介连接 ,并且使用LLMs去从语音特征正确地产生文本。 采取 multi-st

MonoHuman: Animatable Human Neural Field from Monocular Video 翻译

MonoHuman:来自单目视频的可动画人类神经场 摘要。利用自由视图控制来动画化虚拟化身对于诸如虚拟现实和数字娱乐之类的各种应用来说是至关重要的。已有的研究试图利用神经辐射场(NeRF)的表征能力从单目视频中重建人体。最近的工作提出将变形网络移植到NeRF中,以进一步模拟人类神经场的动力学,从而动画化逼真的人类运动。然而,这种流水线要么依赖于姿态相关的表示,要么由于帧无关的优化而缺乏运动一致性

linux dlopen手册翻译

名称 dlclose, dlopen, dlmopen 打开和关闭一个共享对象 简介 #include <dlfcn.h>void *dlopen(const char*filename, int flags);int dlclose(void *handle);#define _GNU_SOURCE#include <dlfcn.h>void *dlmoopen(Lmid_t lm

简单的Q-learning|小明的一维世界(3)

简单的Q-learning|小明的一维世界(1) 简单的Q-learning|小明的一维世界(2) 一维的加速度世界 这个世界,小明只能控制自己的加速度,并且只能对加速度进行如下三种操作:增加1、减少1、或者不变。所以行动空间为: { u 1 = − 1 , u 2 = 0 , u 3 = 1 } \{u_1=-1, u_2=0, u_3=1\} {u1​=−1,u2​=0,u3​=1}

简单的Q-learning|小明的一维世界(2)

上篇介绍了小明的一维世界模型 、Q-learning的状态空间、行动空间、奖励函数、Q-table、Q table更新公式、以及从Q值导出策略的公式等。最后给出最简单的一维位置世界的Q-learning例子,从给出其状态空间、行动空间、以及稠密与稀疏两种奖励函数的设置方式。下面将继续深入,GO! 一维的速度世界 这个世界,小明只能控制自己的速度,并且只能对速度进行如下三种操作:增加1、减

从计组中从重温C中浮点数表示及C程序翻译过程

目录 移码​编辑  传统浮点表示格式 浮点数的存储(ieee 754)->修炼内功 例子:   ​编辑 浮点数取的过程   C程序翻译过程 移码  传统浮点表示格式 浮点数的存储(ieee 754)->修炼内功 根据国际标准IEEE(电⽓和电⼦⼯程协会)  32位 例子:    64位    IEEE754对有效数字M和