Claude3和GPT4哪个强?

2024-04-15 04:12
文章标签 gpt4 claude3

本文主要是介绍Claude3和GPT4哪个强?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在短短两个月内,全球最强人工智能的桂冠再次易主。

此前,Claude3 Opus以其卓越的表现超越了GPT-4,吸引了无数用户抛弃GPT,转而拥抱Claude3。然而,OpenAI近日强势回归,用实力证明了GPT依然是人工智能领域的霸主。

在最新的AI基准测试中,OpenAI布的GPT-4-Turbo-2024-04-09版本大幅超越了Claude3 Opus,重新夺回了全球第一AI的宝座。

4e50a63c992afd1bddcd955f3e7f6f27.jpeg

值得一提的是,这个版本不是一个普通的测试版本,而是作为一个正式版本GPT-4-Turbo发布的。

这也是GPT-4-Turbo系列首次发布正式版,足以看出这个版本的份量。网友甚至纷纷直接将其改名为GPT-4.5-Turbo了。

笔者第一时间通过国内最稳、更新最快的AI镜像站AskManyAI进行了GPT-4.5-Turbo体验。

36da8a8b9a26db6722ee960ef05bb031.jpeg

附AskManyAI地址(GPT-4、Claude3、Gemini都是最新版本):

https://askmanyai.cn

值得一提的是,AskManyAI的有个独特的AI混战模式,你的一个问题,可以指定多个最强的AI同时给你回答,简直就是做大模型测试的理想环境:

af380fea42f426f9bdfe164a602030c6.jpeg

好了,话不多说,我们这就开始测评了!

最新版GPT-4.5-Turbo 大战 Claude 3 Opus

代码能力测试

首先我们来看看代码debug方面的表现:

e13cde58fe9abed91c50837ba5cd241a.jpeg53ff7922e11c931787eadd0360d73f19.jpeg85f24094a335d7b26f48b999a5f5abec.jpeg

这是一个很隐蔽的bug,Claude 3 Opus完全没找到bug在哪,其实这个bug,以前的GPT-4也找不到。但是刚刚更新的这个GPT-4.5-Turbo竟然找到了bug!

而且给到了非常正确的修复bug后的代码!

简直惊呆我了,这是第一个能修复这个bug的AI。

附AskManyAI地址(以上案例可在AskManyAI直接复现):

https://askmanyai.cn

科研学术能力测试

然后我们来看看专业学术问题的表现。

我们这次加大难度,上传一个生物样品图片给AI:

4840ee6a4cdf1635dd61703c23aa49a9.jpeg

然后我们在AskManyAI网站同时选中Claude、GPT和Gemini这三个地表最强的多模态AI,看他们对这个图片分析的结果:

836c19f08c7caf736e1b5b555ee42076.jpeg

结果发现,最新版的GPT-4在图片问答方面还是不如Claude-3 Opus。这方面的能力排序是 Claude-3 > Gemini Pro > GPT-4。

附AskManyAI地址(以上案例可在AskManyAI直接复现):

https://askmanyai.cn

我们再换一个专业问题:

ac2fd441d72ad2069e528e7870ed54c3.jpeg

df27d9c4d5b056a96578320f1d266e14.jpeg11ef3d204e3221f7836ff5e8544d33e5.jpegac0e7e0fd7f1d4461d946d480ca2b62a.jpeg

关于Sora技术原理的解释,所有的AI中,只有最新的GPT-4没有出现知识性的错误,Kimi和Gemini的错误是最离谱的,竟然说Sora是GAN的架构。。。而Claude-3的视频片段选择这个地方的讲解出现了错误——Sora是生成式的,不是检索式的。

我猜测这可能是因为只有GPT-4的知识库已经更新到了2024年的4月份。而Sora是2月份刚发布的,所以只有GPT-4学到了这方面的知识。

最新版GPT-4完胜!

附AskManyAI地址(以上案例可在AskManyAI直接复现):

https://askmanyai.cn

营销能力测试

这次测试加大难度,直接丢给AI一个产品文档PDF,让他去生成一篇营销文案和搜索SEO的标题。

3633100585d9fc23ed9d624943f380c7.jpeg

同样,这次GPT-4完胜!

AI写作能力测试

最后测试下AI写作能力!

e8e602fd3998452e4cd752b53f15a556.jpeg2f8a86957c3b220bbcacc3b72f6ad836.jpeg94360c0c9e3f67fdb7bb2f9808a98305.jpegb6465aff3853f1108c9b88225681a4b6.jpeg611496b3686f0d6b8733095e05a16c79.jpegc69ddc9b88c189b9ab6dc43e085afa6a.jpeg82bff7a1fb5cc26ed629120885877801.jpeg

写作的测试结果就要见仁见智了,每个人的看法都可能不一样。

这里面我最喜欢的是GPT-4和Claude-3写的文章,但Gemini Pro的写作速度非常快,不到5秒就写完了全篇。而GPT-4和Claude-3则写了一分钟不止。

附AskManyAI地址(以上案例可在AskManyAI直接复现):

https://askmanyai.cn

好了,今天的评测就到这里了。你们更喜欢哪个AI呢?

这篇关于Claude3和GPT4哪个强?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/904822

相关文章

Claude3,Claude3.5最新开通教程及其优势,开启AI新时代的全能战士

首先我们来看一个数据对比图 从图上我们可以看到,claude系列已经更新到了3.5 sonnet版本,并且在多个维度上,Claude3.5的性能已经超过了GPT-4o。 除了在自然语言处理方面的卓越表现外,Claude 3.5 Sonnet还在视觉理解和内容创作方面实现了重大突破。能从不完美的图像中准确地转录文本,这一能力在零售、物流和金融服务等领域具有极高的应用价值。 并且Claude

MCT Self-Refine:创新集成蒙特卡洛树搜索 (MCTS)提高复杂数学推理任务的性能,超GPT4,使用 LLaMa-3 8B 进行自我优化

📜 文献卡 题目: Accessing GPT-4 level Mathematical Olympiad Solutions via Monte Carlo Tree Self-refine with LLaMa-3 8B作者: Di Zhang; Xiaoshui Huang; Dongzhan Zhou; Yuqiang Li; Wanli OuyangDOI: 10.48550/a

如何开启Claude 3的Artifacts功能以及如何注册Claude3

就很突然,Claude 3.5,它来了! Anthropic发布3.5系列第一个版本Claude 3.5 Sonnet。在多个关键指标中,GPT-4o几乎被吊打! 另外Claude 3.5 Sonnet是免费的,提供了跟gpt-4o一样的次数。更高的速度和次数,就需要升级一下Claude。 而跟上一个版本相比,速度是Claude 3 Opus的两倍,成本只有其五分之一。

Claude3 注册及升级教程(包含封号解决方法)

前言 最近大家呼声很高的 Claude3 ,它的 注册以及升级 教程来了!!! (还有封号情况的解决方式放在了后面) 废话不多说,直接进入教程。 Claude 3 注册 前期准备工作 一个国外的邮箱账号,例如谷歌微软邮箱。一个国外的手机号码,没有的可以用虚拟的接码平台,本教程使用的是虚拟的接码平台:sms,这里不做对 sms 接码平台的注册解释,支持中文界面,自己注册登录就行,

如何评价GPT4

GPT-4是一款自然语言处理模型,具有显著的进步和改进。它是OpenAI公司继GPT-3之后发布的最新版本。以下是一些评价GPT-4的主要观点: 增强的语义理解能力:GPT-4在理解和解释语义方面取得了显著进步。它能够更准确地理解上下文,并生成更有逻辑性和连贯性的回答。 更高的生成能力:GPT-4不仅在生成语言方面更加流畅,还能够产生更具创造力和多样性的回答。它可以根据用户提供的输入生成富有

从System Prompt来看Claude3、Kimi和ChatGLM4之间的差距

大家好,我是herosunly。985院校硕士毕业,现担任算法t研究员一职,热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名,CCF比赛第二名,科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。   本文主要介绍了从System Prompt来看Claude3、Kimi和Chat

如何注册Claude3?解决Claude3无海外手机号接收验证码的问题以及如何订阅Claude Pro

原文链接:如何注册 Claude3?解决 Claude3 无海外手机号接收验证码的问题以及如何订阅 Claude Pro 前言 Claude3已经出来有一段时间了,大家有没有体验过呢?不过从目前来看,Anthropic公司总共推出了3个模型:Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus。其中Opus是收费最高的,但同时也是它们3个中最强大的一个!甚

大模型的灵魂解读:Anthropic AI的Claude3 Sonnet可解释性研究

大模型技术论文不断,每个月总会新增上千篇。本专栏精选论文重点解读,主题还是围绕着行业实践和工程量产。若在某个环节出现卡点,可以回到大模型必备腔调重新阅读。而最新科技(Mamba,xLSTM,KAN)则提供了大模型领域最新技术跟踪。若对于构建生产级别架构则可以关注AI架构设计专栏。技术宅麻烦死磕LLM背后的基础模型。 Anthropic的模型可解释性团队,一直想和大模型的灵魂交流,最近在研究C

超过GPT4.0?Claude3官网及国内镜像站,国内使用克劳德3的方法

近期又有一个大模型横空出世,这就是由Anthropic公司推出的Claude 3(克劳德3),在多项基准测试中得分超越了GPT-4,那么他到底是什么情况呐?其实大家在国内也是可以使用上的! 克劳德Claude3 关于Claude 3 Claude 3是由OpenAI的竞争对手Anthropic公司在3月4日发布的最新人工智能模型,与ChatGPT相似,Claude 3也是基于大规模语言模型训

Reka全能多模态语言模型:Reka Core竞争GPT4-V,表现更胜一筹

获取本文论文原文PDF,请在公众号【AI论文解读】留言:论文解读 引言:多模态大模型的发展趋势 随着技术的快速发展,多模态大模型已成为人工智能领域的一个热点。这些模型能够综合处理和推理文本、图像、视频和音频等多种类型的输入,展现了前所未有的能力和潜力。在这一背景下,Reka公司推出了其Reka系列模型,包括Reka Core、Reka Flash和Reka Edge,这些模型不仅