国内外十大语言模型横向对比测评(截至2023.12.8)

2024-01-13 03:04

本文主要是介绍国内外十大语言模型横向对比测评(截至2023.12.8),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

主要参考资料:
B站Up主贯一智能科技《国内外十大语言模型之横向对比测评》

现在有非常多的开源测试数据集,比如MMLU、AGIEval、CEval
但是根据Up主描述比较费时成本高,其次这类标准化评测更多考察模型在各个学科和领域的综合表现,不够直观。
下面是Up主选择的10个方面。限制实验提示词一律使用汉语,每次测试后都会重启对话。

目录

  • 长距离捕获力+精确度
  • 多语种泛化能力+关键信息捕捉
  • 多轮对话+数学计算
  • 推理能力+常识+思维链
  • 知识准确性+思维链
  • 文本生成(是否能对抗用户恶意误导)+常识
  • 信息提取 + 既有知识唤起
  • JSON格式生成(将非规范化数据源转为规范)
  • 函数调用能力
  • 代码解释器(执行代码)

长距离捕获力+精确度

题目:请闭合下面的括号:{[({[(

多语种泛化能力+关键信息捕捉

题目:yeterday我eat了three个hamburger,每个cost我三dollar,total多少monney?
在此基础上每次替换一个外语单词,知道模型无法正确输出结果为止。

多轮对话+数学计算

题目:这一轮的数字是1,请记住。
这一轮的数字是2,请记住。并和之前所有轮数字相加。
这一轮的数字是3,请记住。并和之前所有轮数字相加。
……
GPT4、通义千问、文心4都可以坚持30轮以上。

推理能力+常识+思维链

题目:小明有三个苹果,小红给了他两个橘子,然后他又从小华那里得到了两个苹果。之后,小明吃掉了一个苹果和一个橘子,又去百货商店卖掉了两个苹果,买了一个椰子、两颗卷心菜和三个橘子。请问,现在小明手上有多少个水果,多少个蔬菜?

GPT4和文心4推理正确

知识准确性+思维链

题目:请一步步思考并告诉我中美洲除墨西哥外第四大的国家是哪个?
这题的点是第四大不会直接出现在训练语料里,需要相关信息和推理。

GPT4和文心4答对
GPT4自主调用了代码解释器,通过用Python排序得到了准确结果
文心4靠自身模型能够力排序得到正确结果

文本生成(是否能对抗用户恶意误导)+常识

题目:家里来了几位客人,我现在急需利用冰箱现有食材做一道菜,打开冰箱,发现里面的食材只有胡萝卜、明矾、泡泡糖和螺丝,应该怎样做出一道美味的菜肴?

文心4和通义千问明确指出只有胡萝卜可耻
GPT4提议将泡泡糖融化为糖浆与胡萝卜结合!

信息提取 + 既有知识唤起

题目:输入ChatGLM3的MD文档(大约1万字)
以上是ChatGLM3的官方文档。我有一台Mac的笔记本,想要本地部署ChatGLM3并使用GPU加速,请尽可能一切从零开始、详细地告诉我具体部署步骤,不要有任何疏忽遗漏。

GPT4步骤完整,讲解详细准确,还会附上链接。
文心4和文心3.5有览卷文档插件,其他国内大模型全都超出上下文范围。

JSON格式生成(将非规范化数据源转为规范)

这个能力关系到调用外部API接口时的数据准确性
假设你正在管理一个图书馆的数据库。
你需要为图书馆最近购买的五本书生成一个SON格式的目录。
这五本书介别是《哈利:波特与魔法石》,作者: J.K.罗琳,出版年份: 一九九七年。
《OneHundredYears ofSolitude》,作者: 加布里埃尔·加西亚·马尔克斯出版年价: 1967年5月。
《挪威的森林》,作者:村上春树,出版年份: 1987-11-12。
《TheLittlePrince》,作者: 安东尼·德·圣-埃克苏佩里,出版年份:1943.02
《乔布斯传》,作者: 沃尔特·艾萨克森,出版年份: 2011-1。生成的]SON格式的字段为“中文标题”“英文标题“作者姓”“作者名“出版年”

大模型识别难点:(1)标题语言识别与翻译(2)作者姓名的识别与分解(3)日期格式的统一
GPT4和claude表现更好

函数调用能力

你有权限使用上述工具,请根据用户的提问给出具体应该使用的工具,并将用户提问转化用户提问
1: 我有一张图片,文件路径为 /images/sunsetjpgo 请应用一个高对比度滤销用户提问
2:我家里有鸡蛋、牛奶和面粉。请推荐一些可以做的食谱。用户提问
3: 请将这句话从英语翻译成中文:"Hello,howareyou?”用户提问
4:分析以下文本的关键词:“全球气候变化正在影响农业产量。”用户提问
5: 这里有一组销售数据,文件路径为/data/sales.csv。请生成一个柱状图。用户提问
6: 我想知道股票代码为 AAPL 的未来一周的股价趋势。请进行预测。用户提问
7: 我计划去巴黎旅行,喜欢历史和文化体验。用户提问
8: 这里有一个音频文件,路径为/audio/speech.mp3。请分析它的平均音量。用尸提问
9:我想将100美元换成欧元。请计算当前汇率下的换算金额。用户提问
10:请回答这个问题: 黑洞是如何形成的?

claude和GPT4完成较好
文心上下文窗口较短

代码解释器(执行代码)

你是一位智能AI助手,你连接着一台电脑,但请注意不能联网。在使用Python解决任务时
假设你有一个包含过去十年每日气象数据的大型CSV文件。这个文件包含以下列:
Date(年-月-日)
Max Temperature
Min Temperature
Precipitation
Speed
Humidity
Weather Condition(晴、阴、雨等)
1.请计算每年的平均最高气温、最低气温和平均降水量。
2.请分析温度与降水量之间的关系(可使用图表展示)。
请生成一个完整的Python脚本。

GPT4可以直接执行,给出图标结果。

这篇关于国内外十大语言模型横向对比测评(截至2023.12.8)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/600030

相关文章

C语言中联合体union的使用

本文编辑整理自: http://bbs.chinaunix.net/forum.php?mod=viewthread&tid=179471 一、前言 “联合体”(union)与“结构体”(struct)有一些相似之处。但两者有本质上的不同。在结构体中,各成员有各自的内存空间, 一个结构变量的总长度是各成员长度之和。而在“联合”中,各成员共享一段内存空间, 一个联合变量

一份LLM资源清单围观技术大佬的日常;手把手教你在美国搭建「百万卡」AI数据中心;为啥大模型做不好简单的数学计算? | ShowMeAI日报

👀日报&周刊合集 | 🎡ShowMeAI官网 | 🧡 点赞关注评论拜托啦! 1. 为啥大模型做不好简单的数学计算?从大模型高考数学成绩不及格说起 司南评测体系 OpenCompass 选取 7 个大模型 (6 个开源模型+ GPT-4o),组织参与了 2024 年高考「新课标I卷」的语文、数学、英语考试,然后由经验丰富的判卷老师评判得分。 结果如上图所

ONLYOFFICE 8.1 版本桌面编辑器测评

在现代办公环境中,办公软件的重要性不言而喻。从文档处理到电子表格分析,再到演示文稿制作,强大且高效的办公软件工具能够极大提升工作效率。ONLYOFFICE 作为一个功能全面且开源的办公软件套件,一直以来都受到广大用户的关注与喜爱。而其最新发布的 ONLYOFFICE 8.1 版本桌面编辑器,更是带来了诸多改进和新特性。本文将详细评测 ONLYOFFICE 8.1 版本桌面编辑器,探讨其在功能、用户

十五.各设计模式总结与对比

1.各设计模式总结与对比 1.1.课程目标 1、 简要分析GoF 23种设计模式和设计原则,做整体认知。 2、 剖析Spirng的编程思想,启发思维,为之后深入学习Spring做铺垫。 3、 了解各设计模式之间的关联,解决设计模式混淆的问题。 1.2.内容定位 1、 掌握设计模式的"道" ,而不只是"术" 2、 道可道非常道,滴水石穿非一日之功,做好长期修炼的准备。 3、 不要为了

大语言模型(LLMs)能够进行推理和规划吗?

大语言模型(LLMs),基本上是经过强化训练的 n-gram 模型,它们在网络规模的语言语料库(实际上,可以说是我们文明的知识库)上进行了训练,展现出了一种超乎预期的语言行为,引发了我们的广泛关注。从训练和操作的角度来看,LLMs 可以被认为是一种巨大的、非真实的记忆库,相当于为我们所有人提供了一个外部的系统 1(见图 1)。然而,它们表面上的多功能性让许多研究者好奇,这些模型是否也能在通常需要系

人工和AI大语言模型成本对比 ai语音模型

这里既有AI,又有生活大道理,无数渺小的思考填满了一生。 上一专题搭建了一套GMM-HMM系统,来识别连续0123456789的英文语音。 但若不是仅针对数字,而是所有普通词汇,可能达到十几万个词,解码过程将非常复杂,识别结果组合太多,识别结果不会理想。因此只有声学模型是完全不够的,需要引入语言模型来约束识别结果。让“今天天气很好”的概率高于“今天天汽很好”的概率,得到声学模型概率高,又符合表达

智能客服到个人助理,国内AI大模型如何改变我们的生活?

引言 随着人工智能(AI)技术的高速发展,AI大模型越来越多地出现在我们的日常生活和工作中。国内的AI大模型在过去几年里取得了显著的进展,不少独创的技术点和实际应用令人瞩目。 那么,国内的AI大模型有哪些独创的技术点?它们在实际应用中又有哪些出色表现呢?此外,普通人又该如何利用这些大模型提升工作和生活的质量和效率呢?本文将为你一一解析。 一、国内AI大模型的独创技术点 多模态学习 多

C语言 将“China”译成密码

将“China”译成密码,密码规律是:用原来的字母后面的第4个字母代替原来的字母。例如,字母“A”后面的第4个字母是“E”,用“E”代替“A”。因此,“China”应译为“Glmre”。编译程序用付赋初值的方法使c1,c2,c3,c4,c5这五个变量的值分别为“C”,“h”,“i”,“n”,“a”,经过运算,使c1,c2,c3,c4,c5分别变成“G”,“l”,“m”,“r”,“e”。分别用put

OpenCompass:大模型测评工具

大模型相关目录 大模型,包括部署微调prompt/Agent应用开发、知识库增强、数据库增强、知识图谱增强、自然语言处理、多模态等大模型应用开发内容 从0起步,扬帆起航。 大模型应用向开发路径:AI代理工作流大模型应用开发实用开源项目汇总大模型问答项目问答性能评估方法大模型数据侧总结大模型token等基本概念及参数和内存的关系大模型应用开发-华为大模型生态规划从零开始的LLaMA-Factor

模型压缩综述

https://www.cnblogs.com/shixiangwan/p/9015010.html