overlooked专题

Rethinking overlooked aspects in vision-language models

探讨多模态视觉语言模型的一些有趣结论欢迎关注 CVHub！https://mp.weixin.qq.com/s/zouNu-g-33_7JoX3Uscxtw1.Introduction 多模态模型架构上的变化不大，数据的差距比较大，输入分辨率和输入llm的视觉token大小是比较关键的，适配器，VIT和语言模型则不是那么关键。InternVL-1.5，Qwen-VL-Max和De