多模态融合颠覆式创新!计算成本直降46.5%,准确性损失忽略不计

本文主要是介绍多模态融合颠覆式创新!计算成本直降46.5%,准确性损失忽略不计,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

以往的融合方法从本质上讲是静态的,也就是以相同的计算处理和融合多模态输入,没有考虑不同多模态数据的不同计算需求。而近期,有关动态多模态融合的研究有了新的成果,它能够自适应融合多模态数据并在推理过程中生成数据依赖的前向路径,在计算效率、适用性、决策准确性等方面展现出了强有力的优势。比如DynMM模型、SkipcrossNets模型。

  • DynMM模型通过在模态层面和融合层面进行渐进融合,可以将计算成本降低46.5%,准确性损失可以忽略不计。

  • 清华&北航提出的SkipcrossNets模型也达到了类似的效果,能够自适应地结合LiDAR点云和摄像机图像,而不受特定融合时期的限制。

除以上两种方法以外,还有一些值得关注的动态多模态融合相关成果7篇。我也都整理了,附上开源代码。另外为了让大家对多模态融合前沿思路有全面的了解,我还准备了2024最新19个融合创新方法,主要有联合自回归汇合框架、多任务模型融合、渐进式融合、正交序列融合等。

论文原文以及开源代码需要的同学看文末

DynMM模型

Dynamic Multimodal Fusion

方法:论文提出一种动态多模态融合(DynMM)的方法,该方法能够自适应地融合多模态数据,并在推理过程中生成数据相关的前向路径。通过引入一个门控函数来提供基于多模态特征的模态级或融合级的实时决策,并提出了一个资源感知的损失函数来鼓励计算效率。在各种多模态任务上的结果表明了该方法的高效性和广泛适用性。

创新点:

  • 动态多模态融合(DynMM)是一种新的方法,它根据输入数据自适应地融合多个模态的信息。与静态多模态架构相比,DynMM具有减少计算量、提高表示能力和鲁棒性的优势。

  • DynMM通过动态融合实现了对“简单”输入的计算节省,这些输入可以仅使用部分模态或简单的融合操作进行正确预测。对于“困难”的多模态输入,DynMM可以通过依赖所有模态和复杂的融合操作来实现与静态网络相同的表示能力。

  • DynMM的设计灵感来自于多模态数据的自然冗余性,它提供了一种不同于现有工作的视角。在模态级别和融合级别上,DynMM采用渐进融合的方式,根据每个输入选择一部分或全部模态进行预测,并提供了关于融合操作的样本级决策。这种动态架构在“简单”输入上节省了计算量,在“困难”输入上实现了更好的性能。

SkipcrossNets模型

SkipcrossNets: Adaptive Skip-cross Fusion for Road Detection

方法:论文提出了一种新颖的融合架构,称为skip-cross网络(SkipcrossNets),用于自动驾驶中的多模态融合。该网络通过逐层连接两个模态的特征图,实现了自适应地融合LiDAR点云和相机图像。通过这种策略,可以选择两个数据流中最相似的特征层,为稀疏点云特征提供补充效果。此外,网络还被分为多个块,以减少特征融合的复杂性和模型参数的数量。

创新点:

  • 提出了一种新颖的跳跃交叉融合策略,用于在双流网络的每一层进行融合,并自适应地选择最佳融合周期,而不仅仅发生在特定的时期。这种策略增强了特征传播和多模态特征融合,为稀疏点云特征提供了互补效果。

  • 将激光雷达投影到图像平面上生成高度差异图像,以更好地区分道路区域并减少由空间差异引起的融合问题。这种方法提高了道路检测的准确性和性能。

  • 所提出的模型体积小且速度快,适用于处理稀疏点云数据,更适合满足自动驾驶的实际需求。

其他创新方法

Provable Dynamic Fusion for Low-Quality Multimodal Data

方法:论文提出了一种新颖的质量感知多模态融合(QMF)框架,该框架利用基于能量的不确定性来表征每个模态的质量。作者通过理论分析和实验证明了动态融合方法的优势和条件,并提出了QMF方法作为一种具有更好泛化能力的动态多模态融合方法。

创新点:

  • 该论文提出了一种新的动态多模态融合方法,名为Quality-aware Multimodal Fusion (QMF),用于实现可靠的多模态融合。

  • 该方法利用基于能量的不确定性来表征每个模态的质量,从而提高了动态融合的泛化能力。

  • 通过理论分析和实验证明,动态融合的泛化能力与不确定性估计的性能相一致,为设计和评估新的动态融合算法提供了原则。

Adaptive Multi-Modalities Fusion in Sequential Recommendation Systems

方法:本文提出了一种基于图的多模态特征融合方法,名为MMSR。MMSR将每个用户的行为历史表示为一个图,其中每个物品的多模态特征表示为交叉链接的节点。图中的同质节点之间的边表示内部模态的顺序关系,异质节点之间的边表示模态之间的相互依赖关系。MMSR通过双重注意力在图传播过程中区分同质和异质邻居节点。为了自适应地分配节点的融合顺序,MMSR允许每个节点的表示通过更新门异步更新。

创新点:

  • 作者提出了一种图形构建方法,通过创建组合嵌入来表示节点,将节点表示为较小组的组合。这种方法通过将模态特征进行聚类并选择聚类中心的标识符作为模态代码来构建图形。

  • 作者提出了一种双重注意力函数的图聚合方法,用于区分同质和异质节点之间的相关性。这利用基于内容的注意力和键值注意力进行测量。此外,作者还提出了一种非侵入式传播方法,允许同质和异质邻居相互影响,但不会产生破坏性的干扰。

  • 作者提出了一种图更新方法,每个节点通过更新门自适应地选择融合顺序。这意味着每个节点可以决定是先融合异质信息,然后再融合同质信息,还是反之。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“融合创新”获取论文+代码

码字不易,欢迎大家点赞评论收藏

这篇关于多模态融合颠覆式创新!计算成本直降46.5%,准确性损失忽略不计的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/689488

相关文章

韦季李输入法_输入法和鼠标的深度融合

在数字化输入的新纪元,传统键盘输入方式正悄然进化。以往,面对实体键盘,我们常需目光游离于屏幕与键盘之间,以确认指尖下的精准位置。而屏幕键盘虽直观可见,却常因占据屏幕空间,迫使我们在操作与视野间做出妥协,频繁调整布局以兼顾输入与界面浏览。 幸而,韦季李输入法的横空出世,彻底颠覆了这一现状。它不仅对输入界面进行了革命性的重构,更巧妙地将鼠标这一传统外设融入其中,开创了一种前所未有的交互体验。 想象

SigLIP——采用sigmoid损失的图文预训练方式

SigLIP——采用sigmoid损失的图文预训练方式 FesianXu 20240825 at Wechat Search Team 前言 CLIP中的infoNCE损失是一种对比性损失,在SigLIP这个工作中,作者提出采用非对比性的sigmoid损失,能够更高效地进行图文预训练,本文进行介绍。如有谬误请见谅并联系指出,本文遵守CC 4.0 BY-SA版权协议,转载请联系作者并注

LLM系列 | 38:解读阿里开源语音多模态模型Qwen2-Audio

引言 模型概述 模型架构 训练方法 性能评估 实战演示 总结 引言 金山挂月窥禅径,沙鸟听经恋法门。 小伙伴们好,我是微信公众号《小窗幽记机器学习》的小编:卖铁观音的小男孩,今天这篇小作文主要是介绍阿里巴巴的语音多模态大模型Qwen2-Audio。近日,阿里巴巴Qwen团队发布了最新的大规模音频-语言模型Qwen2-Audio及其技术报告。该模型在音频理解和多模态交互

AI和新基建赋能智慧工地超融合管理平台解决方案

1. 项目背景与需求 电力行业的工程管理正朝着智慧化发展,但目前仍处于起步阶段。为满足数字化、网络化、智能化的发展需求,需要构建一个高效综合监控平台,实现对电力项目全过程的精益化管控。 2. 综合管理平台的构建 该平台集成了超融合实景监控、安全智能监测、公共安全防范、技术管理、人员管控和绿色施工等多个方面,通过BIM协同优化设计,提升项目质量和进度管理。 3. 安全智能监测的重要性 安全

颠覆你的开发模式:敏捷思维带来的无限可能

敏捷软件开发作为现代软件工程的重要方法论,强调快速响应变化和持续交付价值。通过灵活的开发模式和高效的团队协作,敏捷方法在应对动态变化和不确定性方面表现出色。本文将结合学习和分析,探讨系统变化对敏捷开发的影响、业务与技术的对齐以及敏捷方法如何在产品开发过程中处理持续变化和迭代。 系统变化对敏捷软件开发的影响 在敏捷软件开发中,系统变化的管理至关重要。系统变化可以是需求的改变、技术的升级、

风格控制水平创新高!南理工InstantX小红书发布CSGO:简单高效的端到端风格迁移框架

论文链接:https://arxiv.org/pdf/2408.16766 项目链接:https://csgo-gen.github.io/ 亮点直击 构建了一个专门用于风格迁移的数据集设计了一个简单但有效的端到端训练的风格迁移框架CSGO框架,以验证这个大规模数据集在风格迁移中的有益效果。引入了内容对齐评分(Content Alignment Score,简称CAS)来评估风格迁移

Banana Pi BPI-F3 进迭时空RISC-V架构下,AI融合算力及其软件栈实践

RISC-V架构下,AI融合算力及其软件栈实践 面对未来大模型(LLM)、AIGC等智能化浪潮的挑战,进迭时空在RISC-V方向全面布局,通过精心设计的RISC-V DSA架构以及软硬一体的优化策略,将全力为未来打造高效且易用的AI算力解决方案。目前,进迭时空已经取得了显著的进展,成功推出了第一个版本的智算核(带AI融合算力的智算CPU)以及配套的AI软件栈。 软件栈简介 AI算法部署旨

深入探讨生成对抗网络(GANs):颠覆传统的AI创作方式

在人工智能的快速发展中,生成对抗网络(Generative Adversarial Networks, GANs)无疑是一个引人注目的技术。自2014年由Ian Goodfellow等人首次提出以来,GANs已经在图像生成、文本生成、视频生成等多个领域展现出了惊人的能力。本文将详细解析GANs的原理、结构以及应用场景,帮助读者全面理解这一颠覆性的技术。 一、GANs的基本原理 生成对抗网络(G

2024年AI芯片峰会——AI芯片架构创新专场

概述 2024年9月7日于北京举行。 官方链接: 大会官网 正文 对存内计算的思考——戴瑾 面向边缘端大语言模型的RPP架构芯片与落地实践——李原 LLM推理端的特征 边缘计算的特征 来源《联想集团边缘计算白皮书》出炉 Llama2计算过程举例 RPP架构 RPP软件栈 RPP的PPA AI 芯片架构创新开启打算里第二增长曲

下一代皮克斯:AI如何融合电影与游戏

故事是人类体验的核心,通过故事我们理解世界、寻找意义并与他人建立联系。技术的进步不断推动着故事叙述的形式,从迪士尼的多平面摄影机到皮克斯的3D图形技术,每一次技术革命都带来了故事叙述的新方式。 游戏:现代叙事的前沿 今天,有两个主要的趋势正在加速下一代叙事公司的诞生: 消费者转向互动媒体:过去三十年间,我们见证了消费者从传统的线性媒体(如电视和电影)向互动媒体(如游戏)的逐步迁移。对于Z世