本文主要是介绍VLM 系列——BLIP2——论文解读,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
一、概述
1、是什么
BLIP2 全称《BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models 》, 是一个多模态视觉-文本大语言模型,隶属BLIP系列第二篇,可以完成:图像描述、视觉问答、名画名人等识别(问答、描述)。支持单幅图片输入(作为第一个输入),多轮文本对话。(不支持图文交错输入、写代码、视觉定位、JSON mode等。)
2、亮点
主要来解决图文多模态端到端重新预训练方式遇到的两个问题:
1)训练成本高:多模态模型需要大量数据,加上模型结构复杂,因此导致端到端重新预训练的成本比较高;
2)模型灾难性遗忘,LLM大模型在finetune时,可能会产生遗忘现象,因此如果直接将单模态的预训练模型加入到多模态模型中进行联合训练,可能会产生灾难性遗忘问题;
解决方案:
*采用已经训练好的单模态模型,从而避免train-from-scratch,减少训练成本;
*将单模态模型的参数进行冻结,从而避免灾难性遗忘问题,充分利用已经训练好的单模态模型;
这篇关于VLM 系列——BLIP2——论文解读的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!