mmbench专题

如何评估基于指令微调的视觉语言模型的各项能力-MMBench论文解读

1. 传统基准的固有局限 VQAv2：视觉问题回答数据集，主要用于评估视觉理解与推理能力。COCO Caption：图像描述生成数据集，用于评估模型对图像内容的理解与描述能力。GQA：结合常识的视觉问题回答数据集。OK-VQA：需要外部知识的视觉问题回答数据集。TextVQA：图像中包含文本的问题回答数据集。主观性基准（例如mPLUG-Owl等）：依赖人类评估这些传统基准测试存在以下问题：