最新版的GPT-4.5-Turbo有多强

2024-04-20 04:04

本文主要是介绍最新版的GPT-4.5-Turbo有多强,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

OpenAI再次用实力证明了,GPT依然是AI世界最强的玩家!在最新的AI基准测试中,OpenAI几天前刚刚发布的GPT-4-Turbo-2024-04-09版本,大幅超越了Claude3 Opus,重新夺回了全球第一的AI王座:

fce2c36bc37b326ee5415a3460ae351a.jpeg

值得一提的是,这个版本不是一个普通的测试版本,而是作为一个正式版本GPT-4-Turbo发布的。

这也是GPT-4-Turbo系列首次发布正式版,足以看出这个版本的份量。网友甚至纷纷直接将其改名为GPT-4.5-Turbo了。

笔者第一时间通过国内最稳、更新最快的AI镜像站AskManyAI进行了GPT-4.5-Turbo体验。

51c8b9b15db732a147e73facf982d689.jpeg

附AskManyAI地址(GPT-4、Claude3、Gemini都是最新版本):

https://askmanyai.cn

值得一提的是,AskManyAI的有个独特的AI混战模式,你的一个问题,可以指定多个最强的AI同时给你回答,简直就是做大模型测试的理想环境:

ab1b90da66f12fce0edde911144eeed0.jpeg

好了,话不多说,我们这就开始测评了!

最新版GPT-4.5-Turbo 大战 Claude 3 Opus

代码能力测试

首先我们来看看代码debug方面的表现:

f251520def619bc3098dd7610e6c7da2.jpeg

4a50fe68adef4a035c4e49e905b858e8.jpeg

4bc19e3c2bd5c5396f44898af635c68e.jpeg

这是一个很隐蔽的bug,Claude 3 Opus完全没找到bug在哪,其实这个bug,以前的GPT-4也找不到。但是刚刚更新的这个GPT-4.5-Turbo竟然找到了bug!

而且给到了非常正确的修复bug后的代码!

简直惊呆我了,这是第一个能修复这个bug的AI。

附AskManyAI地址(以上案例可在AskManyAI直接复现):

https://askmanyai.cn

科研学术能力测试

然后我们来看看专业学术问题的表现。

我们这次加大难度,上传一个生物样品图片给AI:

3769cc649255c727a2985fd5f240bcaa.jpeg

然后我们在AskManyAI网站同时选中Claude、GPT和Gemini这三个地表最强的多模态AI,看他们对这个图片分析的结果:

2dfb2899cb18eae9727081043c8452dc.jpeg

这个case在旧版的GPT-4-Turbo里是个回答错误的badcase,当时明显不如Claude-3 Opus。但几天前的GPT-4-Turbo更新后,竟然回答对了!

不得不表扬下,AskManyAI这个网站的更新速度也真的够快啊!跟官方基本同速了。

附AskManyAI地址(以上案例可在AskManyAI直接复现):

https://askmanyai.cn

我们再换一个专业问题:

31eafd5e08ae514a6181d19e91319da4.jpeg

b94f954cc551dfce57882c86e6a2ff4d.jpeg

de998272ef999fe1270c33a5a663f386.jpeg

5bb8ef5d163b603c7d22fef535cf9c3c.jpeg

关于Sora技术原理的解释,所有的AI中,只有最新的GPT-4没有出现知识性的错误,Kimi和Gemini的错误是最离谱的,竟然说Sora是GAN的架构。。。而Claude-3的视频片段选择这个地方的讲解出现了错误——Sora是生成式的,不是检索式的。

我猜测这可能是因为只有GPT-4的知识库已经更新到了2024年的4月份。而Sora是2月份刚发布的,所以只有GPT-4学到了这方面的知识。

最新版GPT-4完胜!

附AskManyAI地址(以上案例可在AskManyAI直接复现):

https://askmanyai.cn

营销能力测试

这次测试加大难度,直接丢给AI一个产品文档PDF,让他去生成一篇营销文案和搜索SEO的标题。

e624462922e4712fec5b0c76b11460bb.jpeg

同样,这次GPT-4完胜!

AI写作能力测试

最后测试下AI写作能力!

9ac28870c0bfcc83539c64a64c49cfe3.jpeg

5974d2bfa1c5dc2adc56f13c1fba84bc.jpeg

7432ea5b2801eefaed197e556d5abbd7.jpeg

671d373aadd03a6f103e2da9c6034437.jpeg

9bbb366cf9962965f1d06aec7ab57945.jpeg

82ff3526d8e4d0d9175f6c4ed4187fcb.jpeg

2ad6b2598cfeb574e534fb4c3f819d38.jpeg

写作的测试结果就要见仁见智了,每个人的看法都可能不一样。

这里面我最喜欢的是GPT-4和Claude-3写的文章,但Gemini Pro的写作速度非常快,不到5秒就写完了全篇。而GPT-4和Claude-3则写了一分钟不止。

附AskManyAI地址(以上案例可在AskManyAI直接复现):

https://askmanyai.cn

好了,今天的评测就到这里了。你们更喜欢哪个AI呢?

这篇关于最新版的GPT-4.5-Turbo有多强的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/919244

相关文章

4B参数秒杀GPT-3.5:MiniCPM 3.0惊艳登场!

​ 面壁智能 在 AI 的世界里,总有那么几个时刻让人惊叹不已。面壁智能推出的 MiniCPM 3.0,这个仅有4B参数的"小钢炮",正在以惊人的实力挑战着 GPT-3.5 这个曾经的AI巨人。 MiniCPM 3.0 MiniCPM 3.0 MiniCPM 3.0 目前的主要功能有: 长上下文功能:原生支持 32k 上下文长度,性能完美。我们引入了

GPT系列之:GPT-1,GPT-2,GPT-3详细解读

一、GPT1 论文:Improving Language Understanding by Generative Pre-Training 链接:https://cdn.openai.com/research-covers/languageunsupervised/language_understanding_paper.pdf 启发点:生成loss和微调loss同时作用,让下游任务来适应预训

速通GPT-3:Language Models are Few-Shot Learners全文解读

文章目录 论文实验总览1. 任务设置与测试策略2. 任务类别3. 关键实验结果4. 数据污染与实验局限性5. 总结与贡献 Abstract1. 概括2. 具体分析3. 摘要全文翻译4. 为什么不需要梯度更新或微调⭐ Introduction1. 概括2. 具体分析3. 进一步分析 Approach1. 概括2. 具体分析3. 进一步分析 Results1. 概括2. 具体分析2.1 语言模型

ubuntu通过apt的方式更新cmake到最新版(ppa)

添加签名密钥 wget -O - https://apt.kitware.com/keys/kitware-archive-latest.asc 2>/dev/null | sudo apt-key add - 将存储库添加到您的源列表并进行更新 稳定版 sudo apt-add-repository 'deb https://apt.kitware.com/ubuntu/ bionic ma

最新版 | 深入剖析SpringBoot3源码——分析自动装配原理(面试常考)

文章目录 一、自动配置概念二、半自动配置(误~🙏🙏)三、源码分析1、验证DispatcherServlet的自动配置2、源码分析入口@SpringBootApplication3、@SpringBootConfiguration的@Configuration4、@EnableAutoConfiguration的@AutoConfigurationPackage和@Import5、Auto

MiniCPM-V: A GPT-4V Level MLLM on Your Phone

MiniCPM-V: A GPT-4V Level MLLM on Your Phone 研究背景和动机 现有的MLLM通常需要大量的参数和计算资源,限制了其在实际应用中的范围。大部分MLLM需要部署在高性能云服务器上,这种高成本和高能耗的特点,阻碍了其在移动设备、离线和隐私保护场景中的应用。 文章主要贡献: 提出了MiniCPM-V系列模型,能在移动端设备上部署的MLLM。 性能优越:

P11019 「LAOI-6」[太阳]] 请使用最新版手机 QQ 体验新功能

English statement. You must submit your code at the Chinese version of the statement. 题目描述 你的 QQ 收到了一条新消息!但是你很生气,因为你看不到别人在手机 QQ 上发送的超级表情。 消息形如一个字符串 S,包含且仅包含一个超级表情。具体地,我们将 S 的拼音采用驼峰命名法,可以化为如下形

OpenAI澄清:“GPT Next”不是新模型。

不,”GPT Next” 并不是OpenAI的下一个重要项目。 本周早些时候,OpenAI 日本业务的负责人长崎忠男在日本 KDDI 峰会上分享了一场演讲,似乎在暗示一个名为 “GPT Next” 的新模型即将出现。 但OpenAI的一位发言人已向Mashable证实,幻灯片中用引号括起来的”GPT Next”一词只是一个假设性占位符,旨在表明OpenAI的模型如何随着时间呈指数级进化。发言人

AI跟踪报道第55期-新加坡内哥谈技术-本周AI新闻: GPT NEXT (x100倍)即将在2024推出

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/ 点击下面视频观看在B站本周AI更新: B 站 链接 观看: 本周AI

什么是GPT-3的自回归架构?为什么GPT-3无需梯度更新和微调

文章目录 知识回顾GPT-3的自回归架构何为自回归架构为什么架构会影响任务表现自回归架构的局限性与双向模型的对比小结 为何无需梯度更新和微调为什么不需要怎么做到不需要 🍃作者介绍:双非本科大四网络工程专业在读,阿里云专家博主,专注于Java领域学习,擅长web应用开发,目前开始人工智能领域相关知识的学习 🦅个人主页:@逐梦苍穹 📕所属专栏:人工智能 🌻gitee地址:x