【LLM多模态】综述Visual Instruction Tuning towards General-Purpose Multimodal Model

本文主要是介绍【LLM多模态】综述Visual Instruction Tuning towards General-Purpose Multimodal Model，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

note

文章目录

note
论文
1. 论文试图解决什么问题
2. 这是否是一个新的问题
3. 这篇文章要验证一个什么科学假设
4. 有哪些相关研究？如何归类？谁是这一课题在领域内值得关注的研究员？
5. 论文中提到的解决方案之关键是什么？
6. 论文中的实验是如何设计的？
7. 用于定量评估的数据集是什么？代码有没有开源？
8. 论文中的实验及结果有没有很好地支持需要验证的科学假设？
9. 这篇论文到底有什么贡献？
10. 下一步呢？有什么工作可以持续深入？
Reference

论文

在这里插入图片描述
新加坡-南洋理工大学发的paper，2023年12月
我们还是从十大问题分析这篇论文，但由于是综述，可能没有实验环节详细的部分。

1. 论文试图解决什么问题

一篇关于Visual Instruction Tuning 视觉指令微调任务的综述，Visual Instruction Tuning是为了让多模态LLM拥有指令遵循能力
文章介绍传统CV局限性（需要针对不同任务训练不同模型，缺乏交互能力），如下图左侧

在这里插入图片描述

文章从三方面介绍Visual Instruction Tuning的发展过程：单语言（英语）到多语言、图片输入从单一到多元（从图片到视频/3D图像等）、任务复杂化（从基本的图片分类到VQA视觉问答、图像生成等难任务）

在这里插入图片描述

2. 这是否是一个新的问题

去年年底到今年，类似的综述还是不少的。

3. 这篇文章要验证一个什么科学假设

4. 有哪些相关研究？如何归类？谁是这一课题在领域内值得关注的研究员？

相关的视觉微调公开数据集如下，大部分是GPT3.5或者GPT4构造的，而且多轮对话的visual SFT数据还不少：
在这里插入图片描述

5. 论文中提到的解决方案之关键是什么？

在这里插入图片描述
跟进一步，视觉微调的主流过程，基于预训练的LLM，将视觉特征token化冰对齐到语言空间中，利用语言模型得到多模态LLM的输出：

6. 论文中的实验是如何设计的？

是综述，没实验。

7. 用于定量评估的数据集是什么？代码有没有开源？

用于多模态视觉微调的评估数据集：

VQAv2：Visual Question Answering（视觉问答）数据集，广泛用于评估模型在理解图像内容并回答问题方面的能力。
GQA：Graphic Question Answering数据集，包含复杂的视觉问答任务，测试模型的视觉推理能力。
OKVQA：Open-ended Knowledge Visual Question Answering数据集，需要外部知识来回答视觉问题，评估模型结合视觉和知识推理的能力。
OCR-VQA：Optical Character Recognition Visual Question Answering数据集，测试模型在图像中识别和理解文本的能力。
A-OKVQA：Augmented OKVQA数据集，扩展了OKVQA，包含更多样的问答对，测试模型在多种情境下的知识推理能力。
MSCOCO：Microsoft Common Objects in Context数据集，包含丰富的图像标注信息，广泛用于图像识别和分割任务。
TextCaps：数据集专注于图像字幕生成，测试模型在理解图像内容并生成自然语言描述方面的能力。
RefCOCO、RefCOCO+、RefCOCOg：ReferIt Game数据集的变体，用于评估模型在图像中定位指定对象的能力。
Visual Genome：包含图像、区域标注和关系描述的数据集，广泛用于视觉问答和图像理解任务。
Flickr30K：包含丰富的图像及其描述的数据集，用于评估图像字幕生成和图像理解。
VizWiz：数据集包含盲人用户拍摄的图像和相关问题，用于评估模型在处理实际场景和用户生成内容方面的能力。
ScienceQA：针对科学领域的问答数据集，测试模型在结合视觉和科学知识回答问题方面的能力。

8. 论文中的实验及结果有没有很好地支持需要验证的科学假设？

略，综述没实验。

9. 这篇论文到底有什么贡献？

这篇综述对Visual Instruction Tuning进行了任务分类：

（1）Discriminative判别式任务：
在这里插入图片描述

图像分类（Image Classification）：利用可学习的[CLS]token表示全局图像特征，计算[CLS] token和提示tokens之间的相似性，如下图
语义分割（Image Segmentation）：常规的语义分割是像素级别的分类任务，LISA模型是根据复杂的query生成分割掩码，理解query并在图像中找到对应的区域（比如找到下面的维C最多的食物并标记），所以这里模型最终生成一张图。
目标检测（Object Detection）：下图是visionLLM的做法，提出一个指令感知图像分词器（Instruction-Aware Image Tokenizer）有效理解和解析视觉输入，总之是让LLM最终回答出query指向目标的上下左右坐标。VisionLLM 在 COCO 数据集上的目标检测任务中实现了超过 60% 的平均精度（mAP），这与特定于检测的模型相当。

在这里插入图片描述

视觉定位（Visual Grounding）

（2）生成式任务：

图像生成
图像编辑

（3）复杂推理任务：

Image Captioning：图像描述，可以用如MiniGPT-4、Clever Flamingo等模型
Visual Question Answering：即VQA视觉问答，可以用如MiniGPT-v2、instructBLIP等模型
Visual Assistant：视觉助手，可以用如LLaVA、Qwen-VL（多任务预训练数据很好）等模型

在这里插入图片描述

（4）视频学习的微调：视频理解、视频生成、视频字幕生成等
在这里插入图片描述
如video-chatgpt模型（如下），视频具有时序特性，Video-ChatGPT使用预训练的视频编码器将视频分割成多个帧，并提取每一帧的视觉特征。这些视觉特征再经过时序编码，生成包含时序信息的特征向量。用户可以对视频进行提问：
在这里插入图片描述