告别互信息:跨模态人员重新识别的变分蒸馏

2024-04-25 01:52

本文主要是介绍告别互信息:跨模态人员重新识别的变分蒸馏,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Farewell to Mutual Information: Variational Distillation for Cross-Modal Person Re-Identification

摘要:

信息瓶颈 (IB) 通过在最小化冗余的同时保留与预测标签相关的所有信息,为表示学习提供了信息论原理。尽管 IB 原理已应用于广泛的应用,但它的优化仍然是一个具有挑战性的问题,严重依赖于互信息的准确估计。在本文中,我们提出了一种新的策略,变分自蒸馏 (VSD),它提供了一种可扩展、灵活和解析解,以基本上拟合互信息但没有显式估计它。在严格的理论保证下,VSD 使 IB 能够掌握表示和标签之间的内在相关性以进行监督训练。此外,通过将VSD扩展到多视图学习,我们引入了另外两种策略,变分交叉蒸馏(VCD)和变分互学习(VML),通过消除特定于视图和与任务无关的信息,显著提高了表示对视图变化的鲁棒性。为了验证我们理论基础的策略,我们将我们的方法应用于跨模态人 Re-ID,并进行了广泛的实验,其中展示了与最先进的方法相比的优越性能。我们有趣的发现强调了重新思考估计互信息的方法的必要性。

1.引言

信息瓶颈(IB)[35]在计算机视觉[6]、语音处理[21]、神经科学[30]和自然语言处理[18]等现代机器感知系统的发展方面取得了显著进展。它本质上是一个信息论原理,将原始观察转换为通常低维的表示,该原理自然地扩展到表示学习或理解深度神经网络 (DNN) [31, 24, 9]。通过拟合互信息 (MI),IB 允许学习的表示在高维数据上保留复杂的内在相关结构,并包含与下游任务相关的信息 [35]。然而,尽管应用成功,但传统 IB 存在重大缺陷,阻碍了其进一步发展(即互信息的估计)

在本文中,我们提出了一种新的信息瓶颈策略,称为变分自蒸馏 (VSD),这使我们能够保留足够的与任务相关的信息,同时丢弃与任务无关的干扰物。我们在这里应该强调的是,我们的方法本质上拟合互信息,但没有明确估计它。为了实现这一点,我们使用变分推理来提供理论分析,该理论分析获得了 VSD 的解析解。与试图为互信息开发估计器的传统方法不同,我们的方法避免了所有复杂的设计并允许网络通过该方法保证掌握数据和标签之间的内在相关性。此外,通过将VSD扩展到多视图学习,我们提出了变分交叉蒸馏(VCD)和变分互学习(VML),这是一种提高信息瓶颈对视图变化的鲁棒性的策略VCD 和 VML 消除了特定于视图和与任务无关的信息,而不依赖于任何强大的先验假设。更重要的是,我们以训练损失的形式实现VSD、VCD和VML,它们可以相互受益,提高了性能。因此,我们的方法保留了表示学习的两个关键特征(即充分性和一致性)。为了验证我们理论基础的策略,我们将我们的方法应用于跨模态人员再识别1,这是一种跨模态行人图像匹配任务。在广泛采用的基准数据集上进行的广泛实验表明,我们的方法对最先进的方法的有效性、鲁棒性和令人印象深刻的性能。我们的主要贡献总结如下:

• 我们为表示学习设计了一种新的信息瓶颈策略(VSD)。通过使用变分推理重建 IB 的目标,我们可以保留足够的标签信息,同时摆脱与任务无关的细节

通过严格的理论分析提出了一种可扩展的、灵活和解析解来拟合互信息,从根本上解决了互信息估计的困难

• 我们将我们的方法扩展到多视图表示学习,并通过消除特定于视图和与任务无关的信息显着提高了对视图变化的鲁棒性。

2.相关工作和预备知识

开创性的工作来自[35],它引入了IB原则。在此基础上,[1,6,27]要么重新制定训练目标,要么扩展IB原则,极大地促进了其应用。与上述所有内容相比,我们的工作是第一个提供解析解来拟合互信息而不估计它。所提出的 VSD 可以更好地保留与任务相关的信息,同时摆脱与任务无关的干扰。此外,我们将VSD扩展到多视图设置,并提出了VCD和VML,显著提高了对视图变化的鲁棒性。为了更好地说明,我们在监督学习的背景下简要回顾了 IB 原则 [35],数据观察 V 和标签 Y ,表示学习的目标是获得一个编码 Z,它对 Y 的信息量最大,由互信息衡量:(1)

为了鼓励编码过程关注标签信息,IB 通过最大化以下目标等式(2)来实现

将Ic作为从观测V到编码Z的信息流的上界。

等式 (2) 意味着压缩表示可以通过忽略原始输入中的不相关干扰项来提高泛化能力。通过使用拉格朗日目标,IB 允许编码 Z 最大程度地表达 Y,同时通过以下方式最大限度地压缩 X的表达:

其中 β 是拉格朗日乘数。然而,已经表明,由于高压缩和高互信息之间的权衡优化,不可能在等式中实现两个目标。 (3) 实际上 [6, 1]。更重要的是,在高维估计互信息给优化IB带来了额外的困难[26,2,29]。因此,它不可避免地引入了不相关的干扰因素,并在编码过程中丢弃了一些预测线索。接下来,我们展示了如何设计一种新的策略来处理这些问题,并将其扩展到多视图表示学习。

 3.方法

令 v ∈ V 是从编码器 E(v|x) 中提取的输入数据 x ∈ X 的观察。优化信息瓶颈的挑战可以表述为找到一个额外的编码 E(z|v),它保留了 v 中包含的所有标签信息,同时丢弃了与任务无关的干扰项。为此,我们根据信息论展示了 z 的两个特征(即充分性和一致性)的关键作用,并设计了两个变分信息瓶颈来保持这两个特征。具体来说,我们提出了一种变分自蒸馏 (VSD) 方法,它允许信息瓶颈保持表示 z 的充分性,其中编码过程后标签信息的数量不变。在VSD的设计中,我们进一步发现它可以扩展到多视图任务,提出了基于表示一致性的变分交叉蒸馏(VCD)和变分互学习(VML)方法,这两种方法都能够消除视图变化的敏感性,提高泛化能力

更重要的是,所提出的 VSD、VCD 和 VML 可以相互受益,并且本质上拟合高维的互信息,而无需通过理论分析明确估计它。

3.1. 变分自蒸馏

信息瓶颈用于生成表示 z,以保持所有预测信息 w.r.t 标签 y,同时避免编码与任务无关的信息。它也被称为 z 对y 的充分性,定义为:

(4)

 其中 v 是包含所有标签信息的观察。通过分解 v 和 z 之间的互信息,我们对公式进行分解

(5)

注:LEARNING ROBUST REPRESENTATIONS VIAMULTI-VIEW INFORMATION BOTTLENECK 论文中  定义1。充分性:当且仅当I(x;y|z) = 0时,x的表示z对于y就足够了。任何访问足够表示z的模型都必须能够至少准确地预测y,就好像它可以访问原始数据x一样。事实上,当且仅当有关任务的信息量因编码过程而改变时,z 对于 y 就足够了(参见附录中的命题 B.1):I(x; y|z) = 0 ⇐⇒ I(x; y) = I(y; z)。(1) 在足够的表示中,导致对未标记数据实例更好的泛化的表示特别吸引人。当 x 的信息内容高于 y 时,x 中的一些信息必须与预测任务无关。这可以通过使用互信息的链式法则将 I(x; z) 细分为两个组件来更好地理解(参见附录 A):

其中 I(z; y) 表示表示 z 中保留的标签信息量,I(v; z|y) 表示 z 中对给定任务 [6] 进行编码的不相关信息,即多余的信息。因此,z  for y 的充分性被表述为最大化 I(z; y) 并同时最小化 I(v; z|y)。

等式右侧的第一项。 (6) 表明保持充分性经历了两个子过程:最大化 I(v; y) 和强制 I(z; y) 来近似 I(v; y)。在这种情况下,y 的 z 的充分性被重新制定为三个子优化:最大化 I(v; y),最小化 I(v; y)−I(z; y) 和最小化 I(v; z|y)。显然,最大化第一项 I(v; y) 与特定任务严格一致,最后两个项是等价的。因此优化简化为:

然而,在式(5)中很难进行最小-最大博弈,因为在高维估计互信息方面存在很大的困难,特别是在涉及潜在变量优化时。为了解决这个问题,我们引入了以下理论:

定理1。最小化Eq.(7)等价于最小化条件熵H(y|z)和H(y|v)的减法。

 更具体地说,给定 y 的充分观察 v,我们有以下推论:

推论1。如果充分观测v的预测分布与表示z之间的kl散度等于0,那么z也足以满足y,

 z for y 的充分性可以通过以下目标来实现:

(8)

 其中 θ, φ 分别代表编码器和信息瓶颈的参数。另一方面,基于Eq.(6)和Eq.(5),I(v;y)−I(z;y)的最小化等价于减少I(v;z|y),表明Eq.(8)也使IB能够消除不相关的干扰因素。从这个角度来看,我们的方法本质上是一种自我蒸馏方法它净化与任务相关的知识。更重要的是,通过使用变分推理,我们重新制定了 IB 的目标,并提供了理论分析,该理论分析获得了高维互信息拟合解析解。因此,我们将策略命名为变分自蒸馏,即 VSD。讨论。与其他自蒸馏方法(如 [46])相比,我们方法的一个主要优势是 VSD 能够检索那些有用但可能丢弃的信息,同时避免了理论上保证下与任务无关的信息。与显式减少 I(v; z) 不同,我们迭代地执行 VSD 以使表示足以完成任务。理想情况下,当我们有 I(v; y) = I(z; y) 时,我们可以用最小化多余信息来实现足够的表示,即最优表示

3.2.变分交叉蒸馏和变分互学习

越来越多的真实世界数据是从不同的来源收集的,或者从不同的特征提取器中获得,多视图表示学习越来越受到关注。在本节中,我们展示了 VSD 可以灵活地扩展到多视图学习。

将 v1 和 v2 视为来自不同视点的 x 的两个观察。假设 v1 和 v2 都足以标记 y,因此任何包含两个视图访问的所有信息的表示 z 也将包含必要的标签信息。更重要的是,如果 zonly 捕获从 v1 和 v2 访问的线索,它将消除特定于视图的细节,并且对视图更改具有鲁棒性 [6]。受此启发,我们将从信息瓶颈中获得的一致性 w.r.t z1, z2 定义为:

当且仅当 I(z1; y) = I(v1v2; y) = I(z2; y)    z1 and z2 are view-consistent

直观地说,只有当 z1 和 z2 具有相同数量的预测信息时,它们才是视图一致的。类似于方程式。 (5),我们首先分解观察 v1 和表示 z1 之间的互信息,以清楚地揭示一致性的本质:

I(v1;z1|v2)表示z1中包含的信息对v1是唯一的,通过观察v2(即视图特定信息)无法预测(特有信息),I(z1;v2)表示z1和v2共享的信息,称为视图一致信息。为了以最小的视图特定细节获得视图一致的表示,我们需要联合最小化 I(v1; z1|v2) 并最大化 I(z1; v2)。一方面,为了减少特定于视图的信息并注意 y 是恒定的,我们可以使用以下等式来近似 I(v1; z1|v2) 的上限(证明可以在补充材料中找到)。

另一方面,通过使用链式法则将I(z1;v2)细分为两个分量[6],我们有:

等式。 (14) 意味着视图一致的信息还包括多余的信息。因此,基于上述分析,我们给出了以下定理来净化视图一致性:

定理2。给定输入x的两个不同的充分观测v1, v2,当满足以下条件时,对应的表示z1和z2是视图一致的:

 其中 Pz1 = p(y|z1) 和 Pv2 = p(y|v2) 表示预测分布。基于定理 1 和推论 1,等式。 (15) 使表示 z1 能够保留预测线索,同时消除 I(z1; v2) 中包含的多余信息(z2 和 I(z2;v1) 反之亦然),称为变分交叉蒸馏。

讨论。请注意,MIB [6] 也是一种多视图信息瓶颈方法。但是,在我们的和MIB之间有三个不同

1)我们的策略本质上适合互信息,而无需通过变分推理对其进行估计。2)我们的方法不依赖于[6]中提出的强假设,即每个视图提供相同的与任务相关的信息。相反,我们探索了多个视图的互补性和一致性来进行表示学习。3) MIB 本质上是一种无监督方法,由于缺乏标签监督,它在不同视图中保持所有一致的信息。然而,通过预测信息,我们的方法能够丢弃一致表示中包含的多余信息,从而提高鲁棒性。

3.3.多模态人员Re-ID

在本节中,我们将展示如何将VSD、VCD和VML应用于多模态学习(即多模态人员ReID)。在这种情况下,来自不同模态的图像有两种(即红外图像 xI 和可见图像 xV)。多模态人员Re-ID的基本目标是匹配来自另一个模态的图像的图库中的目标人。特别是,我们使用两个配备VSD的并行模态特定分支来处理来自特定模态的图像。此外,如图3所示,部署了使用VCD和VML训练的模态共享分支来生成模态一致的表示。为了便于 Re-ID 学习,我们还在 Re-ID 社区中采用了一些常用的策略。因此总损失为:Ltrain = LReID + β · (LV SD + LV CD + LV M L)。(16) 更具体地说,LReID可以进一步划分为以下项,LReID = Lcls + Lmetric + α·LDM L,(17)其中Lcls, Lmetric, LDM L表示标签平滑[34]、度量约束[39]和深度相互学习损失[47]的分类损失。

多模态Re-ID的网络架构。EI/S/V 和 BI/S/V 分别表示编码器(ResNet-50)和信息瓶颈(多层感知器)。v 和 z 分别表示来自编码器和信息瓶颈的观察和表示

这篇关于告别互信息:跨模态人员重新识别的变分蒸馏的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/933415

相关文章

基于CTPN(tensorflow)+CRNN(pytorch)+CTC的不定长文本检测和识别

转发来源:https://swift.ctolib.com/ooooverflow-chinese-ocr.html chinese-ocr 基于CTPN(tensorflow)+CRNN(pytorch)+CTC的不定长文本检测和识别 环境部署 sh setup.sh 使用环境: python 3.6 + tensorflow 1.10 +pytorch 0.4.1 注:CPU环境

百度OCR识别结构结构化处理视频

https://edu.csdn.net/course/detail/10506

Pycharm配置conda环境(解决新版本无法识别可执行文件问题)

引言: 很多小伙伴在下载最新版本的pycharm或者更新到最新版本后为项目配置conda环境的时候,发现文件夹目录中无法显示可执行文件(一般为python.exe),以下就是本人遇到该问题后试验和解决该问题的一些方法和思路。 一般遇到该问题的人群有两种,一种是刚入门对pycharm进行conda环境配置的小白(例如我),不熟悉相关环境配置的操作和过程,还有一种是入坑pycharm有段时间的老手

神经网络第四篇:推理处理之手写数字识别

到目前为止,我们已经介绍完了神经网络的基本结构,现在用一个图像识别示例对前面的知识作整体的总结。本专题知识点如下: MNIST数据集图像数据转图像神经网络的推理处理批处理  MNIST数据集          mnist数据图像 MNIST数据集由0到9的数字图像构成。像素取值在0到255之间。每个图像数据都相应地标有“7”、“2”、“1”等数字标签。MNIST数据集中,

vscode python pip : 无法将“pip”项识别为 cmdlet、函数、脚本文件或可运行程序的名称

在vscode中控制台运行python文件出现:无法将"pip”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。 使用vscode开发python,需要安装python开发扩展: 本文已经安装,我们需要找的是python安装所在目录,本文实际路径如下: 如果在本文路径中没有此目录,请尝试在C盘中搜索 python,搜索到相关python目录后,点击Python 3.9进入目录,

【图像识别系统】昆虫识别Python+卷积神经网络算法+人工智能+深度学习+机器学习+TensorFlow+ResNet50

一、介绍 昆虫识别系统,使用Python作为主要开发语言。通过TensorFlow搭建ResNet50卷积神经网络算法(CNN)模型。通过对10种常见的昆虫图片数据集(‘蜜蜂’, ‘甲虫’, ‘蝴蝶’, ‘蝉’, ‘蜻蜓’, ‘蚱蜢’, ‘蛾’, ‘蝎子’, ‘蜗牛’, ‘蜘蛛’)进行训练,得到一个识别精度较高的H5格式模型文件,然后使用Django搭建Web网页端可视化操作界面,实现用户上传一

关于文章“python+百度语音识别+星火大模型+讯飞语音合成的语音助手”报错的修改

前言 关于我的文章:python+百度语音识别+星火大模型+讯飞语音合成的语音助手,运行不起来的问题 文章地址: https://blog.csdn.net/Phillip_xian/article/details/138195725?spm=1001.2014.3001.5501 1.报错问题 如果运行中报错,且报错位置在Xufi_Voice.py文件中的pcm_2_wav,如下图所示

理解什么是DSR,嗅探器视角下的IP和MAC地址识别(C/C++代码实现)

网络嗅探器是监控和分析网络流量的一种工具,它能够捕获数据包并提取出关键的信息,比如IP地址和MAC地址。 网络嗅探器工作原理基于网卡的工作模式。正常情况下,网卡只处理发送给它的数据包,忽略其他数据。但是,如果将网卡设置为“混杂模式”,那么它可以接收到网络上所有的数据包,而不仅仅是发给它的数据包。网络嗅探器就是利用了这一特性来捕获网络上的数据交换。 数据包是网络通信的基本单位,包含了传输数据和控

Vue3的Teleport:Teleport是Vue3的一个新功能,它允许我们将子组件渲染到父组件以外的地方,这在处理模态框、弹出窗口等情况时非常有用

I. Teleport 的概述 Teleport 的定义:   在 Vue 3.0 中,Teleport 是一个新的内置组件,它允许我们将任何部分的渲染内容 Teleport(传送)到 Vue 应用范围之外的地方。 换句话说,你可以控制片段,让它们在 DOM 中的任何位置渲染,而不仅仅是在当前组件内部。   Teleport 的效用和应用场景:   Teleport 的主要用途是处理在 UI

C# Onnx Yolov5 水果识别,人员识别,物品识别 人工智能

目录 先上效果 来电废话,但实用 网络成功案例实践易失败的原因 万物检测涉及技术  下载合集 关键代码 全部代码 实操vs2022安装关键 YOLO V5核心库编译 编写自己识别软件 更新相关依赖 标注字库文件 测试效果 名词解释YOLO 名词解释ONNX 源码 直播教学和作者 先上效果 来电废话,但实用 为何照做网络成功案例仍失败?软件与男