LLM排行榜更新!谷歌Bard超过GPT-4,中国玩家未进前十

2024-01-29 13:20

本文主要是介绍LLM排行榜更新!谷歌Bard超过GPT-4,中国玩家未进前十,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

今天谷歌Bard的排名在Imsys的LLMs 排位赛上超过了GPT-4,直接跃居第二名(但没有超过OpenAI最新的 GPT-4 Turbo模型):

图片

遇到这好事,谷歌首席科学家 Jeff Dean 当然是第一时间前来“炫耀”,并给自家的 Gemini Pro模型带货。

图片

排行榜介绍

这个LLMs 排行榜(Chatbot Arena基准平台)是由 UC伯克利研究人员主导的LMSYS (Large Model Systems Organization)组织发起的。通过在LLMs 间进行随机匿名的 1V1 battle 方式,并基于 Elo 评级系统得出排名。

如下图所示,你可以随便问一个问题,左侧是模型A的回答,右侧是模型B的回答。然后你可以给这两个模型的回答打分,一共有四个选项「A更好;B更好;A和B一样好;A和B一样差」,如果一轮聊天判断不出来,你可以继续聊天,直到选出你认为更好的,但如果在聊天过程中暴露了大模型的身份,则投票将不被计算在内。

图片

下图显示了模型A在对战模型B时获胜几率(不包含平局 )的比例分布图:

图片

下图显示了每种模型组合的battle次数(无平局))

图片

下图显示了单个模型相对于所有其他模型的平均胜率:

图片

OpenAI霸榜,中国玩家未进前十

下图是该榜单目前排名的 Top 10,可以看出GPT-系列模型还是占据绝对优势的(前四名中占据了其三),而 Anthropic旗下的 Claude 系列模型则是在前十中占据了三席。号称是欧洲版OpenAI的 Mistral公司,这次也有两个模型进入前十。

图片

另外请看上图最右侧一列,排名 Top 10的模型中,有9家都是闭源的私有模型,这说明开源模型还是有一段路要走。

遗憾的是中国玩家的大语言模型没有进入前十。

其中排名最高的是李开复创业公司零一万物旗下的 Yi-34B-Chat模型,位居13名。

图片

其次是阿里旗下的 通义千问 Qwen-14B-chat模型,排名36:

图片

再之后是清华教授唐杰创业公司智谱AI旗下的ChatGLM系列模型:

图片

需要说明三点:

1、有很多中国大厂研发的模型可能没有参与到该榜单排名;

2、该榜单是面向全球公众的,所以选择用英文来聊天的用户要远比中文多,这可能对中国玩家研发的大语言模型不利;

图片

3、该榜单仅仅统计了20w用户的随机提问和聊天,代表了用户和LLMs聊天的真实评价,但由于用户的提问和专业程度参差不齐,所以评价具有一定的主观性。

最后我们说回谷歌,在裁员和科学家离职创业的内忧外患之际(详情请移步谷歌危机大爆发!科学家纷纷离职创业、员工裁员不断...),谷歌24年究竟能不能完成“帝国反击战”呢?

让我们拭目以待吧!

图片

 

这篇关于LLM排行榜更新!谷歌Bard超过GPT-4,中国玩家未进前十的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/657043

相关文章

MySQL更新某个字段拼接固定字符串的实现

《MySQL更新某个字段拼接固定字符串的实现》在MySQL中,我们经常需要对数据库中的某个字段进行更新操作,本文就来介绍一下MySQL更新某个字段拼接固定字符串的实现,感兴趣的可以了解一下... 目录1. 查看字段当前值2. 更新字段拼接固定字符串3. 验证更新结果mysql更新某个字段拼接固定字符串 -

Python获取中国节假日数据记录入JSON文件

《Python获取中国节假日数据记录入JSON文件》项目系统内置的日历应用为了提升用户体验,特别设置了在调休日期显示“休”的UI图标功能,那么问题是这些调休数据从哪里来呢?我尝试一种更为智能的方法:P... 目录节假日数据获取存入jsON文件节假日数据读取封装完整代码项目系统内置的日历应用为了提升用户体验,

MySQL新增字段后Java实体未更新的潜在问题与解决方案

《MySQL新增字段后Java实体未更新的潜在问题与解决方案》在Java+MySQL的开发中,我们通常使用ORM框架来映射数据库表与Java对象,但有时候,数据库表结构变更(如新增字段)后,开发人员可... 目录引言1. 问题背景:数据库与 Java 实体不同步1.1 常见场景1.2 示例代码2. 不同操作

一文详解SQL Server如何跟踪自动统计信息更新

《一文详解SQLServer如何跟踪自动统计信息更新》SQLServer数据库中,我们都清楚统计信息对于优化器来说非常重要,所以本文就来和大家简单聊一聊SQLServer如何跟踪自动统计信息更新吧... SQL Server数据库中,我们都清楚统计信息对于优化器来说非常重要。一般情况下,我们会开启"自动更新

Redis如何使用zset处理排行榜和计数问题

《Redis如何使用zset处理排行榜和计数问题》Redis的ZSET数据结构非常适合处理排行榜和计数问题,它可以在高并发的点赞业务中高效地管理点赞的排名,并且由于ZSET的排序特性,可以轻松实现根据... 目录Redis使用zset处理排行榜和计数业务逻辑ZSET 数据结构优化高并发的点赞操作ZSET 结

Redis缓存问题与缓存更新机制详解

《Redis缓存问题与缓存更新机制详解》本文主要介绍了缓存问题及其解决方案,包括缓存穿透、缓存击穿、缓存雪崩等问题的成因以及相应的预防和解决方法,同时,还详细探讨了缓存更新机制,包括不同情况下的缓存更... 目录一、缓存问题1.1 缓存穿透1.1.1 问题来源1.1.2 解决方案1.2 缓存击穿1.2.1

Linux Mint Xia 22.1重磅发布: 重要更新一览

《LinuxMintXia22.1重磅发布:重要更新一览》Beta版LinuxMint“Xia”22.1发布,新版本基于Ubuntu24.04,内核版本为Linux6.8,这... linux Mint 22.1「Xia」正式发布啦!这次更新带来了诸多优化和改进,进一步巩固了 Mint 在 Linux 桌面

SpringCloud配置动态更新原理解析

《SpringCloud配置动态更新原理解析》在微服务架构的浩瀚星海中,服务配置的动态更新如同魔法一般,能够让应用在不重启的情况下,实时响应配置的变更,SpringCloud作为微服务架构中的佼佼者,... 目录一、SpringBoot、Cloud配置的读取二、SpringCloud配置动态刷新三、更新@R

Ubuntu 24.04 LTS怎么关闭 Ubuntu Pro 更新提示弹窗?

《Ubuntu24.04LTS怎么关闭UbuntuPro更新提示弹窗?》Ubuntu每次开机都会弹窗提示安全更新,设置里最多只能取消自动下载,自动更新,但无法做到直接让自动更新的弹窗不出现,... 如果你正在使用 Ubuntu 24.04 LTS,可能会注意到——在使用「软件更新器」或运行 APT 命令时,

跨国公司撤出在华研发中心的启示:中国IT产业的挑战与机遇

近日,IBM中国宣布撤出在华的两大研发中心,这一决定在IT行业引发了广泛的讨论和关注。跨国公司在华研发中心的撤出,不仅对众多IT从业者的职业发展带来了直接的冲击,也引发了人们对全球化背景下中国IT产业竞争力和未来发展方向的深思。面对这一突如其来的变化,我们应如何看待跨国公司的决策?中国IT人才又该如何应对?中国IT产业将何去何从?本文将围绕这些问题展开探讨。 跨国公司撤出的背景与