VLM 系列——COGVLM—

VLM 系列——COGVLM—— 论文解读

本文主要是介绍VLM 系列——COGVLM—— 论文解读，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

一、概述

1、是什么

COGVLM 全称《VISUAL EXPERT FOR LARGE LANGUAGE》，是一个多模态的视觉-文本模型，当前CogVLM-17B（20231130）可以完成对一幅图片进行描述、图中物体或指定输出检测框、相关事物进行问答，但是这个版本只支持一个图片（为且必为首次输入），只支持英文，几乎不支持写代码（目前测试是的）。

2、亮点

论文认为：在不损害NLP模型原本能力的情况下，通过“视觉专家”模块 + 两层的MLP adapter 替代浅层的对齐大幅提升了模型的图片描述、视觉问答和视觉定位能力。然后现在大多是闭源，作者开源提供了一个很强的基线。

笔者附加：论文附录《A.2 DETAILS OF ASSOCIATED DATASETS》章节还详细介绍了使用的数据源的介绍，这个确实可以给入门或者复现等对相关数据集有个快速的认知。

PS

上述三大能力的提升，碾压了标志性的BLIP系列、千问系列，但是当前的代价是高达4096 A100 卡天的计算资源，不支持英文、写代码、多轮对话、视觉定位只能输出一个框（存疑）、视觉计数也比千问要弱。所以有没有可能是增加的“视觉专家”的参数更能拟合更少的任务呢，期待后续增加任务后模型的表现来消融证明这个架构的有效性。并且论文中对于cogvlm-base-224、cogvlm-base-490、CogVLM-Chat和CogVLMGrounding四个节点的阐

这篇关于VLM 系列——COGVLM—— 论文解读的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！