GPT-4o仅排第二!北大港大等6所高校联手,发布权威多模态大模型榜单!

本文主要是介绍GPT-4o仅排第二!北大港大等6所高校联手,发布权威多模态大模型榜单!,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

多模态大模型视频分析能力榜单出炉:

Gemini 1.5 Pro最强,GPT-4o仅排第二? 曾经红极一时的GPT-4V屈居第三。

3.5研究测试:
hujiaoai.cn
4研究测试:
askmanyai.cn
Claude-3研究测试:
hiclaude3.com

最近,北大港大等6所高校联手,发布首个专为视频分析设计的多模态大模型评估基准——Video-MME。在该基准中,冠军Gemini 1.5 Pro甩开第二名GPT-4o近10分,第三名GPT-4V近15分。

而在开源模型中,最高分为LLaVA-NeXT-Video,但总体准确率只有52.5%,远远不及商业模型,还有较大提升空间。

论文标题:
Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis

论文链接
https://arxiv.org/pdf/2405.21075

Video-MME是首个专为视频分析设计的多模态大模型评估基准,包含900段视频,并为每段视频设计了2,700个高质量的多选题,如下图例子所示:

Video-MME涵盖6大视觉领域,包括知识、电影与电视、体育竞赛、艺术表演、生活记录和多语言,并进一步细分为天文学、科技、纪录片等30个类别视频长度从11秒到1小时不等。此外,Video-MME还整合字幕和音频轨道,增强了对视频理解的多模态输入分析。

更难能可贵的是,Video-MME中所有数据,包括问答、视频、字幕和音频,都是手工收集和整理的,确保了该基准的高质量。数据集详细信息可在官方链接中获取:

https://video-mme.github.io/

Video-MME构建过程

Video-MME数据集的构建过程分为三个步骤:

  • 视频收集:作者根据YouTube的流行趋势定义了6个关键领域:知识、电影与电视、体育竞赛、生活记录和多语言。每个领域又进一步细分为详细的标签,例如体育竞赛中的足球和篮球,总共得到30个精细分类的视频类别。然后从YouTube中收集不同长度的视频,包括短(少于2分钟)、中(4-15分钟)和长(30-60分钟)视频,同时还获取了视频的字幕与音频。

  • 问题-答案标注:为方便评估,该基准采用选择题格式,由本文的所有作者人工标注。所有的标注人员首先观看整个视频内容,然后通过反复观看视频,为每个视频生成3个相关问题,每个问题有4个备选答案,总计获得2,700个QA对。问题类型共有12种如下图所示,包括感知、推理和信息概要等。

  • 质量审查:不同的标注人员每个QA对交叉审核,确保语言表达准确、问题可答且答案合理。另外为增强问题挑战性,使用Gemini 1.5 Pro过滤需要视频辅助才能回答的QA对。也就是说将纯文本问题输入Gemini 1.5 Pro,如“2022年阿根廷的十大成就是什么?”这类不需要视频也能回答的问题将被过滤。Gemini 1.5 Pro在纯文本问题下的准确率低于15%。

最终Video-MME包含总共900个视频、713个字幕和869个音频文件,大多数视频都配有字幕和音频,为研究外部信息对视频理解性能的影响提供了宝贵的资源。

Video-MME统计分析

QA对质量分析

经过统计,Video-MME中QA对的风格相对统一、答案分布均匀,确保了评价的公平。如下表所示,问题、选项和答案的单词数在不同视频长度之间表现出明显的一致性。四个答案选项(A/B/C/D)的分布较为接近,分别为25.2%/27.2%/25.2%/22.3%。另一方面,字幕的单词数随着视频长度的增加而显著增加,例如,短视频的平均单词数为200.9,而长视频子集的单词数可达6,500。随着字幕的增加量表明较长的视频包含更多信息。

Video-MME-S/M/L表示短/中/长部分

▲Video-MME-S/M/L表示短/中/长部分

Video-MME挑战性分析

在视频分析领域,确定一个QA对是否有难度,可采用“Certificate Length Analysis(证书长度分析)”的方法[1]。证书长度计算为识别出的子片段的总时长之和。从下表中可以看到,对于短、中、长视频,其证书长度的中位数分别为26.0秒、167.3秒和890.7秒。与EgoSchema的证书长度相比,Video-MME的中长视频子集需要更长的视频内容理解才能回答问题,也就是说更具挑战性

Video-MME VS. 其他基准

传统视频基准如MSRVTT-QA、MSVD-QA等多聚焦于电视视频等特定领域,缺乏层次结构,不适用于全面诊断MLLMs的局限性。尽管有一些基准如TempCompass和MVBench涉及开放领域和多级评估,但视频时长较短。

Video-MME作为首个涵盖开放领域、时长从11秒至1小时的手动标注的基准,评估了多层次视频理解能力,并包含字幕、音频等元信息,可全面推动为MLLMs的评估与开发。

详细分析MLLMs在Video-MME上的表现

评估采用“整段视频帧+完整字幕(可选)+带有提示的问题”的格式。默认模型的原有的提示,如果没有则使用如下常见的提示:

正如前文提到,在3个商业模型以及5个开源视频多模态语言模型,还有3个先进的图像多模态语言模型的横向对比中,Gemini 1.5 Pro大获全胜

Gemini 1.5 Pro表现突出

另外,如下图所示,Gemini 1.5 Pro在六大视频类别中,电影与电视识别准确率最高(79.1%),体育竞赛最低(71.1%)。随着视频时长增长,其性能下降14.8%,凸显了模型在捕捉长时序关系方面的不足。尽管如此,Gemini 1.5 Pro在长视频上的表现仍超越所有开源模型在短视频上的性能

除视觉帧外,Gemini 1.5 Pro还支持字幕和音频输入,**在融合了音频后,长视频中准确率提高了7.2%,特别是多语言类别提高了16.6%**。这表明,字幕和音频对于提升模型的视频理解能力有所帮助。

开源模型仍存在显著差距

在不同类的任务中,开源模型如LLaVA-NeXT-Video和InterVL-Chat-V1.5离商业模型还有很大的差距,特别是在计数问题、动作识别和时间感知方面,差距明显。

Video-MME也可用于评估图像MMLMs

除了视频多模态模型,Video-MME也可用于评估图像MMLMs。据下表所示,基于图像的Qwen-VL-Max和InterVL-Chat-V1.5模型在性能上与LLaVA-NeXT-Video相当,这一发现充分展示了图像MMLMs在序列数据处理上的出色泛化能力。同时,这也进一步强调了图像理解作为视频理解基础的重要地位。

除此之外,本文还做了额外的分析,探索哪些因素会影响模型视频理解的性能。

影响视频理解性能的因素有哪些

额外的模态是否能提升性能

大多数评估仅使用视频帧作为输入,要求模型仅依赖视觉上下文来回答问题。然而,许多视频本质上包含来自其他模态的额外信息,如字幕和音频。

视频本身就是一个多模态集合体,除了视觉帧外,还包含字幕、音频等其他模态,这些模态对视频理解是否有帮助?答案是肯定的

作者发现:

  • 引入字幕和音频能显著提升模型性能。 例如,Gemini 1.5 Pro在添加音频后,长视频准确率提高了16.6%,额外的模态为回答问题提供了关键信息。

  • 对于长视频,字幕和音频的作用尤为明显。在短视频中,字幕仅带来2.4%的提升,但在长视频中提升至8.8%,这可能是因为长视频包含更多需要推理的难题,需要模型利用更多模态信息。

  • 在多模态模型中,字幕比音频更有效。字幕主要捕捉语音内容,而音频则包含更多环境声音。在实验中,字幕通常带来更高的性能提升。特别在多语言任务中字幕质量对效果的影响很大。

MLLMs如何应对不同视频时长的挑战?

通过对比不同模型在短、中、长视频上的性能,作者发现随着视频时长增加,无论是开源还是商业模型,性能均出现显著下滑

LLaVA-NeXT-Video的准确率从短视频到中视频减少了12%,从短视频到长视频更是减少了18.5%;而Gemini 1.5 Pro的准确率也分别下降了7%和14.8%。

性能下降的原因本文主要总结了三点:

  • 一是长视频中困难任务比例增加,尤其是推理问题增多,对模型构成更大挑战;

  • 二是帧采样稀疏,导致输入信息减少,许多模型固定输入帧数,如8帧,这在长视频中造成信息密度过低,影响模型预测;

  • 三是长文本理解难度增大,即使Gemini 1.5 Pro增加了帧采样数,长上下文理解仍是一个挑战。

虽然引入额外模态如字幕,可以有效补充缺失信息,提升模型性能。但部分开源MLLMs仅支持有限的输入帧难以理解长序列任务,因此需要创新的架构来扩展上下文。在未来提升多模态大模型的长序列理解能力将成为一大研究趋势

结语

数据集是大模型领域技术进步的基石,相比文本和图像数据集来说,目前视频数据集仍然不足,特别是涉及长视频的复杂高质量数据集更是凤毛麟角。本文提出的首个全面的视频分析多模态基准——Video-MME正好弥补了这一不足。其涵盖了各种类型的视频、不同的时长和多种数据模态,所有内容都配以高质量、专家标注的问答对,对于现有的开源模型来说极具挑战性,相信其能激发MLLMs的进一步发展的需求。

参考资料

[1]K. Mangalam, R. Akshulakov, and J. Malik. Egoschema: A diagnostic benchmark for very long-form video language understanding. In NeurIPS, 2024.

这篇关于GPT-4o仅排第二!北大港大等6所高校联手,发布权威多模态大模型榜单!的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1043694

相关文章

一份LLM资源清单围观技术大佬的日常;手把手教你在美国搭建「百万卡」AI数据中心;为啥大模型做不好简单的数学计算? | ShowMeAI日报

👀日报&周刊合集 | 🎡ShowMeAI官网 | 🧡 点赞关注评论拜托啦! 1. 为啥大模型做不好简单的数学计算?从大模型高考数学成绩不及格说起 司南评测体系 OpenCompass 选取 7 个大模型 (6 个开源模型+ GPT-4o),组织参与了 2024 年高考「新课标I卷」的语文、数学、英语考试,然后由经验丰富的判卷老师评判得分。 结果如上图所

大语言模型(LLMs)能够进行推理和规划吗?

大语言模型(LLMs),基本上是经过强化训练的 n-gram 模型,它们在网络规模的语言语料库(实际上,可以说是我们文明的知识库)上进行了训练,展现出了一种超乎预期的语言行为,引发了我们的广泛关注。从训练和操作的角度来看,LLMs 可以被认为是一种巨大的、非真实的记忆库,相当于为我们所有人提供了一个外部的系统 1(见图 1)。然而,它们表面上的多功能性让许多研究者好奇,这些模型是否也能在通常需要系

人工和AI大语言模型成本对比 ai语音模型

这里既有AI,又有生活大道理,无数渺小的思考填满了一生。 上一专题搭建了一套GMM-HMM系统,来识别连续0123456789的英文语音。 但若不是仅针对数字,而是所有普通词汇,可能达到十几万个词,解码过程将非常复杂,识别结果组合太多,识别结果不会理想。因此只有声学模型是完全不够的,需要引入语言模型来约束识别结果。让“今天天气很好”的概率高于“今天天汽很好”的概率,得到声学模型概率高,又符合表达

智能客服到个人助理,国内AI大模型如何改变我们的生活?

引言 随着人工智能(AI)技术的高速发展,AI大模型越来越多地出现在我们的日常生活和工作中。国内的AI大模型在过去几年里取得了显著的进展,不少独创的技术点和实际应用令人瞩目。 那么,国内的AI大模型有哪些独创的技术点?它们在实际应用中又有哪些出色表现呢?此外,普通人又该如何利用这些大模型提升工作和生活的质量和效率呢?本文将为你一一解析。 一、国内AI大模型的独创技术点 多模态学习 多

OpenCompass:大模型测评工具

大模型相关目录 大模型,包括部署微调prompt/Agent应用开发、知识库增强、数据库增强、知识图谱增强、自然语言处理、多模态等大模型应用开发内容 从0起步,扬帆起航。 大模型应用向开发路径:AI代理工作流大模型应用开发实用开源项目汇总大模型问答项目问答性能评估方法大模型数据侧总结大模型token等基本概念及参数和内存的关系大模型应用开发-华为大模型生态规划从零开始的LLaMA-Factor

模型压缩综述

https://www.cnblogs.com/shixiangwan/p/9015010.html

WordPress网创自动采集并发布插件

网创教程:WordPress插件网创自动采集并发布 阅读更新:随机添加文章的阅读数量,购买数量,喜欢数量。 使用插件注意事项 如果遇到404错误,请先检查并调整网站的伪静态设置,这是最常见的问题。需要定制化服务,请随时联系我。 本次更新内容 我们进行了多项更新和优化,主要包括: 界面设置:用户现在可以更便捷地设置文章分类和发布金额。代码优化:改进了采集和发布代码,提高了插件的稳定

AI赋能天气:微软研究院发布首个大规模大气基础模型Aurora

编者按:气候变化日益加剧,高温、洪水、干旱,频率和强度不断增加的全球极端天气给整个人类社会都带来了难以估计的影响。这给现有的天气预测模型提出了更高的要求——这些模型要更准确地预测极端天气变化,为政府、企业和公众提供更可靠的信息,以便做出及时的准备和响应。为了应对这一挑战,微软研究院开发了首个大规模大气基础模型 Aurora,其超高的预测准确率、效率及计算速度,实现了目前最先进天气预测系统性能的显著

PyTorch模型_trace实战:深入理解与应用

pytorch使用trace模型 1、使用trace生成torchscript模型2、使用trace的模型预测 1、使用trace生成torchscript模型 def save_trace(model, input, save_path):traced_script_model = torch.jit.trace(model, input)<

【机器学习】自然语言处理的新前沿:GPT-4与Beyond

📝个人主页:哈__ 期待您的关注  目录 🔥引言 背景介绍 文章目的 一、GPT-4简介 GPT-4概述 主要特性 局限性和挑战 二、自监督学习的新进展 自监督学习的原理 代表性模型和技术 三、少样本学习和零样本学习 少样本学习的挑战 先进方法 四、跨模态学习 跨模态学习的概念 代表性技术 应用场景 第五部分:可解释性和透明性 AI的可解释