智源研究院推出全球首个包含文生视频的模型对战评测服务

本文主要是介绍智源研究院推出全球首个包含文生视频的模型对战评测服务,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

2024年9月4日,智源研究院推出全球首个包含文生视频的面向用户开放的模型对战评测服务——FlagEval大模型角斗场,覆盖国内外约40款大模型,支持语言问答、多模态图文理解、文生图、文生视频四大任务的自定义在线或离线盲测,包含简单理解、知识应用、代码能力、推理能力多种预设问题。除网页端,该服务还率先开放了国内首个移动端访问入口,为用户提供高效便捷的模型对战评测体验。

秉承FlagEval评测体系的科学、权威、公正、开放四大原则,大模型角斗场的评测过程采取匿名机制,在匿名对战中如出现已暴露或问题中试图暴露模型身份的对决评分将被视为无效,该条评测数据不对模型分数产生任何影响。

此外,FlagEval大模型角斗场网页端首次引入了主观倾向阶梯评分体系,包含A远好于B、A略好于B、AB差不多、A远好于B、B略好于A、B远好于A共5个梯度,其中“AB差不多”又分为“都好与都不好”。这一阶梯胜负评测方法,相较于传统的Arena仅有的三个评分等级(“A更优、B更优、两者相似”),更能捕捉模型生成内容的细微差异,精确揭示模型性能差异,从而提供更丰富和深入的评测洞察。

为了降低评分细化带来的用户认知负荷增加,我们特别对打分展示形式进行了人性化设计。初步的产品试用结果已经验证了这一评测设计的有效性,用户的舒适度和操作流畅性均表现出色。

用户提交倾向程度评分结果后,可立即查看该轮模型对战结果。FlagEval将对所有大模型角斗场用户评分进行汇总计算,根据收集的有效数据,最终形成角斗场榜单,对大模型对战能力进行公示。

为确保模型能力主观评测的覆盖范围,用户可与模型进行多轮交流和提问,以最大程度衡量模型输出与人类期望或偏好保持一致性。在模型匹配机制方面,FlagEval大模型角斗场采取均匀采样、分流随机抽取的方式,以确保公平性。在模型对战机制方面,不支持对战过程中进行模型切换,只支持重开一轮,对战结束后,不支持用户继续提问、更改评分。

FlagEval大模型角斗场可支持Runway、Pika以及爱诗科技PixVerse、快手可灵(性能版)、字节即梦2.0、智谱AI清影(Ying)、星火绘镜、Luma等国内外文生视频模型。用户可从预设问题中进行任意选择,覆盖场景、动物、人物、想象等能力类型。

智源研究院推出FlagEval大模型评测体系以来,持续迭代和优化,FlagEval大模型角斗场进一步拓展了智源在模型对战评测领域的技术布局和工具方法的研发。未来,智源将对模型对战评测的全链路数据,包括用户输入、模型输出的数据,进行开源,以促进大模型评测生态的发展。

扫描二维码进入FlagEval大模型角斗场移动端,

或访问官网体验模型对战 https://flageval.baai.ac.cn/#/home

这篇关于智源研究院推出全球首个包含文生视频的模型对战评测服务的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1138849

相关文章

Java的IO模型、Netty原理解析

《Java的IO模型、Netty原理解析》Java的I/O是以流的方式进行数据输入输出的,Java的类库涉及很多领域的IO内容:标准的输入输出,文件的操作、网络上的数据传输流、字符串流、对象流等,这篇... 目录1.什么是IO2.同步与异步、阻塞与非阻塞3.三种IO模型BIO(blocking I/O)NI

基于Flask框架添加多个AI模型的API并进行交互

《基于Flask框架添加多个AI模型的API并进行交互》:本文主要介绍如何基于Flask框架开发AI模型API管理系统,允许用户添加、删除不同AI模型的API密钥,感兴趣的可以了解下... 目录1. 概述2. 后端代码说明2.1 依赖库导入2.2 应用初始化2.3 API 存储字典2.4 路由函数2.5 应

Linux上设置Ollama服务配置(常用环境变量)

《Linux上设置Ollama服务配置(常用环境变量)》本文主要介绍了Linux上设置Ollama服务配置(常用环境变量),Ollama提供了多种环境变量供配置,如调试模式、模型目录等,下面就来介绍一... 目录在 linux 上设置环境变量配置 OllamPOgxSRJfa手动安装安装特定版本查看日志在

SpringCloud之LoadBalancer负载均衡服务调用过程

《SpringCloud之LoadBalancer负载均衡服务调用过程》:本文主要介绍SpringCloud之LoadBalancer负载均衡服务调用过程,具有很好的参考价值,希望对大家有所帮助,... 目录前言一、LoadBalancer是什么?二、使用步骤1、启动consul2、客户端加入依赖3、以服务

4G/5G全网通! FiberHome烽火5G CPE Air路由器拆机评测

《4G/5G全网通!FiberHome烽火5GCPEAir路由器拆机评测》烽火5GCPE已经使用一段时间了,很多朋友想要知道这款路由器怎么样?今天我们就来看看拆机测评... 我想大家都听说过、了解过5G。 5G是具有高速率、低时延和大连接特点的新一代宽带移动通信技术,5G通讯设施是实现人机物互联的网络基础设

Nginx配置系统服务&设置环境变量方式

《Nginx配置系统服务&设置环境变量方式》本文介绍了如何将Nginx配置为系统服务并设置环境变量,以便更方便地对Nginx进行操作,通过配置系统服务,可以使用系统命令来启动、停止或重新加载Nginx... 目录1.Nginx操作问题2.配置系统服android务3.设置环境变量总结1.Nginx操作问题

C#集成DeepSeek模型实现AI私有化的流程步骤(本地部署与API调用教程)

《C#集成DeepSeek模型实现AI私有化的流程步骤(本地部署与API调用教程)》本文主要介绍了C#集成DeepSeek模型实现AI私有化的方法,包括搭建基础环境,如安装Ollama和下载DeepS... 目录前言搭建基础环境1、安装 Ollama2、下载 DeepSeek R1 模型客户端 ChatBo

SpringBoot快速接入OpenAI大模型的方法(JDK8)

《SpringBoot快速接入OpenAI大模型的方法(JDK8)》本文介绍了如何使用AI4J快速接入OpenAI大模型,并展示了如何实现流式与非流式的输出,以及对函数调用的使用,AI4J支持JDK8... 目录使用AI4J快速接入OpenAI大模型介绍AI4J-github快速使用创建SpringBoot

springboot的调度服务与异步服务使用详解

《springboot的调度服务与异步服务使用详解》本文主要介绍了Java的ScheduledExecutorService接口和SpringBoot中如何使用调度线程池,包括核心参数、创建方式、自定... 目录1.调度服务1.1.JDK之ScheduledExecutorService1.2.spring

Android 悬浮窗开发示例((动态权限请求 | 前台服务和通知 | 悬浮窗创建 )

《Android悬浮窗开发示例((动态权限请求|前台服务和通知|悬浮窗创建)》本文介绍了Android悬浮窗的实现效果,包括动态权限请求、前台服务和通知的使用,悬浮窗权限需要动态申请并引导... 目录一、悬浮窗 动态权限请求1、动态请求权限2、悬浮窗权限说明3、检查动态权限4、申请动态权限5、权限设置完毕后