首页
Python
Java
前端
数据库
Linux
Chatgpt专题
开发者工具箱
mmbench专题
如何评估基于指令微调的视觉语言模型的各项能力-MMBench论文解读
1. 传统基准的固有局限 VQAv2:视觉问题回答数据集,主要用于评估视觉理解与推理能力。COCO Caption:图像描述生成数据集,用于评估模型对图像内容的理解与描述能力。GQA:结合常识的视觉问题回答数据集。OK-VQA:需要外部知识的视觉问题回答数据集。TextVQA:图像中包含文本的问题回答数据集。主观性基准(例如mPLUG-Owl等):依赖人类评估 这些传统基准测试存在以下问题:
阅读更多...