OpenAI 疑似正在进行 GPT-4.5 灰度测试!

2023-12-20 07:01

本文主要是介绍OpenAI 疑似正在进行 GPT-4.5 灰度测试!,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

大家好,我是二狗。

今天,有网友爆料OpenAI疑似正在进行GPT-4.5灰度测试!

当网友询问ChatGPT API调用查询模型的确切名称是什么时?

ChatGPT的回答竟然是 gpt-4.5-turbo。

也有网友测试之后发现仍然是GPT-4模型。

这是有网友指出,必须使用类似下面的prompt才能触发ChatGPT-4 的最新回答。

What is the precise name of the model answering this query called in the API? Not "ChatGPT with browsing" but the specific model name.

二狗我找朋友帮忙测试了一下。

只是简单的问一问,ChatGPT的回答确实是GPT-4:

但当使用上面完整的prompt,ChatGPT 的回答就变成了gpt-4.5-turbo:

把prompt换成中文来问,ChatGPT 的回答也是gpt-4.5-turbo:

当进一步询问gpt-4.5-turbo的新功能,ChatGPT也给出了一个回答,但给出的回答并不能证明这是gpt-4.5-turbo,反而知识库的时间(23年4月)更像是gpt-4。

而当故意询问 ChatGPT作为gpt-5模型都拥有哪些新功能时,ChatGPT承认自己基于 GPT-4.5-turbo 模型,且这是 OpenAI 目前已发布的最先进的语言处理模型之一。

接着询问 ChatGPT当前模型和GPT-3.5以及GPT-4的对比:

继续询问 ChatGPT以上表格的信息来源:

OpenAI的一位研究人员指出这是一种非常怪异且奇怪的持续幻觉。

纳尼??

出现幻觉严重到这种程度,二狗我表示怀疑。

GPT-4.5泄露信息

就在前两天,GPT-4.5的信息疑似提前泄露。

据泄露信息,这款OpenAI 最先进的 GPT-4.5 模型定价被曝光,多模态功能大升级——支持跨语言、音频、视觉、视频和3D的多模态功能,以及复杂的推理和跨模态理解能力。

从泄漏的截图可以看出,OpenAI这次推出了三种型号:

• GPT-4.5,每1千输入token 0.06美元,每1千输出token 0.18美元;

• GPT-4.5-64k,每1千输入token 0.12美元,每1千输出token 0.36美元;

• GPT-4.5-音频&语音,每分钟输入0.012美元,每分钟输出0.024美元;

可以看出,相比之前的 GPT-4 Turbo模型,GPT-4.5 的价格提高了整整6倍,GPT-4.5-64k的价格提高了12倍。这个价格的提升,想必会给人很大的期待,是不是性能的提升也能对得起这个价格?

就在今天之前,本次 GPT-4.5 的泄露还未得到正式证实。

而这次又闹出疑似“GPT-4.5 Turbo幻觉”的幺蛾子,真的是给人一种山雨欲来风满楼的感觉。

为何大家这么关注 GPT-4.5 ?

很简单,一方面因为OpenAI在大模型这块占据了霸主地位,代表的是大模型最先进的性能,这两年来一直遥遥领先。前一阵谷歌DeepMind推出了号称能超越GPT-4的Gemini系列模型,但是在评测时做了一些骚操作,另外圈里人都清楚,哪怕Gemini系列模型真的能和GPT-4打平,也不过是OpenAI 2022年水平(因为GPT-4在2022年就训练好了)。

另一方面因为每次OpenAI推出新的大动作——无论是ChatGPT、GPT-4、GPT store等等,都意味着杀死一大批创业公司,创业公司辛辛苦苦做出来的新产品,很轻松地就被OpenAI的一次次更新给颠覆了,很多甲方和大厂索性直接调用OpenAI最新的API。

最后,希望GPT-4.5赶紧推出吧~

这篇关于OpenAI 疑似正在进行 GPT-4.5 灰度测试!的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/515122

相关文章

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

性能测试介绍

性能测试是一种测试方法,旨在评估系统、应用程序或组件在现实场景中的性能表现和可靠性。它通常用于衡量系统在不同负载条件下的响应时间、吞吐量、资源利用率、稳定性和可扩展性等关键指标。 为什么要进行性能测试 通过性能测试,可以确定系统是否能够满足预期的性能要求,找出性能瓶颈和潜在的问题,并进行优化和调整。 发现性能瓶颈:性能测试可以帮助发现系统的性能瓶颈,即系统在高负载或高并发情况下可能出现的问题

字节面试 | 如何测试RocketMQ、RocketMQ?

字节面试:RocketMQ是怎么测试的呢? 答: 首先保证消息的消费正确、设计逆向用例,在验证消息内容为空等情况时的消费正确性; 推送大批量MQ,通过Admin控制台查看MQ消费的情况,是否出现消费假死、TPS是否正常等等问题。(上述都是临场发挥,但是RocketMQ真正的测试点,还真的需要探讨) 01 先了解RocketMQ 作为测试也是要简单了解RocketMQ。简单来说,就是一个分

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

【测试】输入正确用户名和密码,点击登录没有响应的可能性原因

目录 一、前端问题 1. 界面交互问题 2. 输入数据校验问题 二、网络问题 1. 网络连接中断 2. 代理设置问题 三、后端问题 1. 服务器故障 2. 数据库问题 3. 权限问题: 四、其他问题 1. 缓存问题 2. 第三方服务问题 3. 配置问题 一、前端问题 1. 界面交互问题 登录按钮的点击事件未正确绑定,导致点击后无法触发登录操作。 页面可能存在

4B参数秒杀GPT-3.5:MiniCPM 3.0惊艳登场!

​ 面壁智能 在 AI 的世界里,总有那么几个时刻让人惊叹不已。面壁智能推出的 MiniCPM 3.0,这个仅有4B参数的"小钢炮",正在以惊人的实力挑战着 GPT-3.5 这个曾经的AI巨人。 MiniCPM 3.0 MiniCPM 3.0 MiniCPM 3.0 目前的主要功能有: 长上下文功能:原生支持 32k 上下文长度,性能完美。我们引入了

业务中14个需要进行A/B测试的时刻[信息图]

在本指南中,我们将全面了解有关 A/B测试 的所有内容。 我们将介绍不同类型的A/B测试,如何有效地规划和启动测试,如何评估测试是否成功,您应该关注哪些指标,多年来我们发现的常见错误等等。 什么是A/B测试? A/B测试(有时称为“分割测试”)是一种实验类型,其中您创建两种或多种内容变体——如登录页面、电子邮件或广告——并将它们显示给不同的受众群体,以查看哪一种效果最好。 本质上,A/B测

遮罩,在指定元素上进行遮罩

废话不多说,直接上代码: ps:依赖 jquer.js 1.首先,定义一个 Overlay.js  代码如下: /*遮罩 Overlay js 对象*/function Overlay(options){//{targetId:'',viewHtml:'',viewWidth:'',viewHeight:''}try{this.state=false;//遮罩状态 true 激活,f

GPT系列之:GPT-1,GPT-2,GPT-3详细解读

一、GPT1 论文:Improving Language Understanding by Generative Pre-Training 链接:https://cdn.openai.com/research-covers/languageunsupervised/language_understanding_paper.pdf 启发点:生成loss和微调loss同时作用,让下游任务来适应预训

利用matlab bar函数绘制较为复杂的柱状图,并在图中进行适当标注

示例代码和结果如下:小疑问:如何自动选择合适的坐标位置对柱状图的数值大小进行标注?😂 clear; close all;x = 1:3;aa=[28.6321521955954 26.2453660695847 21.69102348512086.93747104431360 6.25442246899816 3.342835958564245.51365061796319 4.87