今日arXiv最热NLP大模型论文:一文读懂多模态大模型的进化之路

2024-03-09 15:36

本文主要是介绍今日arXiv最热NLP大模型论文:一文读懂多模态大模型的进化之路,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

随着注意力机制和Transformer架构的引入,我们见证了处理多种模态信息的模型在规模和能力上的飞跃。这一进步主要得益于这些技术的通用性和灵活性。最初,这些技术被应用于语言特定的模型,但很快就扩展到了视觉处理的支持,并最终发展为能够整合多种模态的模型。特别是,大语言模型(LLMs)的复杂性和它们对上下文学习的能力,激励研究者们将这些模型的应用范围扩展到输入和输出的多模态领域。这种扩展导致了如GPT-4V和Gemini等尖端模型的开发,它们在多个领域展现了最先进的性能。

多模态大语言模型(MLLMs)的发展涉及将视觉和语言的单模态架构合并,通过视觉到语言的适配器建立有效的连接,并设计创新的训练方法。这些方法对于确保模态之间的对齐和准确遵循指令至关重要。在快速发布新模型的背景下,我们的目标是提供MLLM领域的全面概述,重点关注利用视觉模态的模型。这一概述既是对当前状态的更新,也是未来发展的灵感来源。

论文标题:
The (R)Evolution of Multimodal Large Language Models :A Survey

论文链接:
https://arxiv.org/pdf/2402.12451.pdf

MLLMs的发展

MLLMs的发展路径与LLMs相似,Flamingo是首个在视觉语言领域大规模探索上下文学习的模型。随后,视觉指令调整迅速成为多模态领域最突出的训练范式,以及使用PEFT技术对LLM进行微调。如下图所示,任何MLLM至少包含三个组件:作为与用户交互的接口的LLM主干,一个(或多个)视觉编码器(Visual Encoder),以及一个或多个视觉到语言适配器模块(Adapter)。流行的LLM主干选择通常属于LLaMA家族,鉴于它们的权重是免费可获取的,它们仅在公共数据上进行了训练,并且为了适应不同的用例,它们拥有不同的大小。此外,它们的衍生版本也很受欢迎,例如Alpaca和Vicuna。前者在使用GPT-3编写的指令上微调LLaMA,而后者利用用户与ChatGPT的共享对话。其他选择包括OPT、Magneto、MPT以及经过指令调整或多语言版本的T5,这是一个为多个任务预训练的编码器-解码器语言模型。

图片

MLLMs的架构概述

1. 语言模型的核心作用与用户接口

多模态大语言模型(MLLMs)是在传统大语言模型(LLMs)的基础上发展而来,旨在处理和理解多种模态的数据,如文本和图像。LLMs的核心作用在于其强大的语言理解和生成能力,这使得它们能够在没有明确任务指示的情况下,通过上下文学习(in-context learning)来执行各种语言任务。MLLMs继承了这些能力,并通过用户接口与用户进行交互,用户可以通过对话形式提出问题或指令,模型则能够理解并生成相应的回答或执行指定的任务。

2. 视觉编码器的重要性与常用模型

视觉编码器在MLLMs中扮演着至关重要的角色,它负责将视觉信息转换为模型能够理解的特征表示。这些特征随后会被送入语言模型,与文本信息结合进行处理。常用的视觉编码器模型包括基于Vision Transformer(ViT)的CLIP和OpenCLIP模型,它们通过对齐图像和文本嵌入来训练,以此捕获视觉内容的丰富信息。此外,EVA-CLIP模型[1]也被用于训练MLLMs,它通过重建遮蔽的图像-文本对齐视觉特征来提供有效的视觉编码(下图)。

图片

3. 视觉到语言适配器的作用与类型

视觉到语言适配器是连接视觉编码器和语言模型的关键组件,它使得不同模态的信息能够在同一模型中融合和交互。适配器的类型多样,从简单的线性层或多层感知机(MLP)到更复杂的基于Transformer的Q-Former模型[2],以及增加的条件交叉注意力层。这些适配器通过不同的机制将视觉特征映射到文本空间,从而实现跨模态的信息融合(下图是Q-Former使用一组可学习的查询向量从冻结的图像编码器中提取视觉特征,在这里它为LLM提供最有用的视觉特征,以便LLM输出期望的文本。)。

图片

MLLMs的训练方法与数据

1. 单阶段与双阶段训练的对比

MLLMs的训练通常涉及单阶段或双阶段过程。单阶段训练中,模型通常使用图像-文本对进行联合训练,同时处理视觉知识和文本指令。而双阶段训练首先关注将图像特征与文本嵌入空间对齐,在第二阶段则进一步提升模型的多模态对话能力。不同的MLLMs采用不同的训练策略,以适应特定的任务和性能要求。

2. 训练数据的来源与特点

MLLMs的训练数据来自多个来源,包括公开的图像-文本数据集如LAION-2B[3]、LAION-400M[4]、Conceptual Captions[5]和COYO-700M[6]等。这些数据集提供了大量的图像和对应的描述,用于训练模型的视觉理解能力。此外,还有专门为视觉指令调整而设计的数据集,如LLaVA-Instruct[7],它扩展了COCO数据集,加入了由GPT-4生成的指令。这些数据集的多样性和丰富性对于训练具有强大视觉理解和生成能力的MLLMs至关重要。

MLLMs在视觉任务中的应用

1. 视觉理解任务的范畴

视觉理解任务是多模态大语言模型(MLLMs)的关键应用领域之一。这些任务通常要求模型能够理解和解释视觉内容,包括图像和视频。视觉理解的范畴广泛,涵盖了从基本的图像分类和目标检测到更复杂的场景解析、视觉问答(VQA)、图像字幕生成和视觉对话等任务。例如,在视觉问答任务中,模型需要根据图像内容回答相关问题,这不仅要求模型具备强大的视觉感知能力,还要求其能够理解和处理自然语言。

2. 视觉定位与图像生成的进展

在视觉定位方面,MLLMs已经能够实现精确的目标检测和定位。例如,通过结合视觉编码器和语言模型,MLLMs可以识别图像中的特定对象,并在对话中提供关于这些对象的信息。在图像生成方面,MLLMs的进展同样显著。它们不仅可以生成与文本描述相匹配的图像,还可以进行图像编辑,如改变图像中对象的颜色或形状。这些能力的提升得益于先进的视觉编码器和适配器模块的开发,以及针对特定视觉任务的训练数据集和评估基准的编制。

面向视频、多模态和特定领域的MLLMs

1. 视频理解能力的增强

随着研究的深入,MLLMs在视频理解方面的能力也得到了显著提升。这些模型可以独立处理视频帧,提取帧级特征,并通过池化机制或基于Q-Former的解决方案结合这些特征。这使得MLLMs能够处理视频对话、视频问答和视频字幕生成等任务。此外,一些模型还结合了音频特征,进一步丰富了视频序列的表示。

2. 能处理多种模态的模型

上文讨论的几乎所有模型都将单一模态作为输入处理。然而,有大量研究工作集中在设计能够有效处理多种模态的有效解决方案上。这通常是通过使用如Q-Former和Perceiver[8]这样的Transformer模块来对齐多模态特征,或者通过利用ImageBind[9]来有效提取本质上是多模态的特征并进行联合空间嵌入(下图),图像、视频和音频是最常见的处理模态。此外,一些工作也有效地编码了3D数据和惯性测量单元(IMU)传感器信号。

图片

除了这些能处理多模态输入的解决方案,也有像NExT-GPT[10]和Unified-IO 2[11]这样的能够生成不同模态输出的解决方案。下图是NExT-GPT通过将LLM与多模态适配器和扩散解码器连接起来, 实现了通用多模态理解和任意模态间的输入和输出。

图片

3. 针对特定应用领域的模型定制

除了通用的视觉理解任务,MLLMs也被定制用于特定领域的应用。这些领域特定的MLLMs通常是在预训练的LLM基础上进行训练,或者使用特定领域的数据对现有MLLM进行微调。例如,已经开发了针对文档分析、医疗视觉学习和自动驾驶等领域的MLLMs。这些模型不仅能够处理通用的视觉输入,还能够理解和执行与特定领域相关的复杂任务,如信息提取、图表分析和交通状况理解。

MLLMs的挑战与未来方向

在多模态大语言模型(MLLMs)的发展过程中,研究者们面临着一系列挑战,同时也在探索未来的发展方向。以下是目前MLLMs面临的一些主要挑战以及可能的解决策略。

1. 减少幻觉现象的策略

MLLMs在生成长文本描述时,常常会出现幻觉现象,即模型生成与图像内容不符的描述。为了解决这一问题,研究者们提出了多种策略。例如,通过引入对抗性样本来训练模型,使其能够更好地区分相关与不相关的内容。此外,还可以通过增加模型的视觉理解能力,例如使用更强大的视觉编码器,或者通过两阶段训练方法,在第一阶段让视觉编码器可训练,以增强模型对视觉信息的捕捉能力。

2. 防止生成有害和有偏见内容的方法

由于MLLMs通常使用从网络上收集的大量数据进行训练,这些数据可能包含有害或有偏见的内容。为了防止模型生成不当内容,研究者们正在探索不同的方法。一种方法是在训练过程中引入安全和公平性的约束,以确保模型不会生成不适当的内容。另一种方法是使用更加精细的数据清洗和筛选技术,以减少训练数据中的有害内容。

3. 降低计算负担的可能途径

从下图可以看到各种MLLMs训练所需的GPU小时数,说明MLLMs训练和部署需要大量的计算资源,这限制了它们的可访问性和可持续性。为了降低计算负担,研究者们正在探索多种途径。例如,使用参数高效的微调技术(PEFT),只对模型的一小部分参数进行更新,从而减少训练成本。此外,还可以通过模型压缩和量化技术来减少模型的大小和运行时的计算需求。

图片

总结:MLLMs的当前状态与未来展望

MLLMs作为一种新兴的技术,已经在多模态理解和生成任务中展现出了巨大的潜力。然而,它们仍然面临着一系列挑战,包括如何减少幻觉现象、防止生成有害内容以及降低计算成本。未来的研究将需要在提高模型性能的同时,解决这些挑战,以实现更广泛的应用和更好的用户体验。随着技术的不断进步和研究的深入,我们有理由相信MLLMs将在未来的人工智能领域扮演更加重要的角色。

这篇关于今日arXiv最热NLP大模型论文:一文读懂多模态大模型的进化之路的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/791122

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}

秋招最新大模型算法面试,熬夜都要肝完它

💥大家在面试大模型LLM这个板块的时候,不知道面试完会不会复盘、总结,做笔记的习惯,这份大模型算法岗面试八股笔记也帮助不少人拿到过offer ✨对于面试大模型算法工程师会有一定的帮助,都附有完整答案,熬夜也要看完,祝大家一臂之力 这份《大模型算法工程师面试题》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言

AI Toolkit + H100 GPU,一小时内微调最新热门文生图模型 FLUX

上个月,FLUX 席卷了互联网,这并非没有原因。他们声称优于 DALLE 3、Ideogram 和 Stable Diffusion 3 等模型,而这一点已被证明是有依据的。随着越来越多的流行图像生成工具(如 Stable Diffusion Web UI Forge 和 ComyUI)开始支持这些模型,FLUX 在 Stable Diffusion 领域的扩展将会持续下去。 自 FLU

2024网安周今日开幕,亚信安全亮相30城

2024年国家网络安全宣传周今天在广州拉开帷幕。今年网安周继续以“网络安全为人民,网络安全靠人民”为主题。2024年国家网络安全宣传周涵盖了1场开幕式、1场高峰论坛、5个重要活动、15场分论坛/座谈会/闭门会、6个主题日活动和网络安全“六进”活动。亚信安全出席2024年国家网络安全宣传周开幕式和主论坛,并将通过线下宣讲、创意科普、成果展示等多种形式,让广大民众看得懂、记得住安全知识,同时还