GPT4o速测:约0.5秒延迟的多模态能力

2024-05-14 11:36

本文主要是介绍GPT4o速测:约0.5秒延迟的多模态能力,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 1. 测评
  • 2. Intro
  • Reference

没有剪辑,约0.5秒延迟的多模态能力。

1. 测评

  • 推理速度异常快,比之前快了大概两三倍,对产品端来说是个很好的事情,想用gpt4级别性能终于可以少讨论几句时延影响用户体验了
  • 模型指令遵从能力变强,能够在较长的文本中保持指令的一致性,概括小说的效果变好了
  • 模型懒惰的问题有很大改善,现在的模型愿意输出比较长的内容
  • 措辞更加人格化,跟grok接近
  • 好多功能还没有推送,目前只有模型权重是新的,实时多模态输入输出都没有打开,等下个版本测评了

2. Intro

GPT-4o,o 代表 Omnimodel(全能模型)。

第一次,OpenAI 在一个模型中集成了所有模态,大幅提升了大模型的实用性。

在这里插入图片描述
第一,以后 OpenAI 做产品就是要免费优先,为的就是让更多的人能使用。

第二,因此 OpenAI 此次发布了桌面版本的程序和更新后的 UI,其使用起来更简单,也更自然。

第三,GPT-4 之后,新版本的大模型来了,名字叫 GPT-4o。GPT-4o 的特别之处在于它以极为自然的交互方式为每个人带来了 GPT-4 级别的智能,包括免费用户。

它最快可以在 232 毫秒的时间内响应音频输入,平均响应时长 320 毫秒,与人类相似。在 GPT-4o 发布之前,体验过 ChatGPT 语音对话能力的用户能够感知到 ChatGPT 的平均延迟为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)。

在这里插入图片描述
OpenAI 已经找到了一种方法,可以将音频直接映射到音频作为一级模态,并将视频实时传输到 transformer。这些需要对 token 化和架构进行一些新的研究,但总体来说是一个数据和系统优化问题(大多数事情都是如此)。 —— 英伟达科学家 Jim Fan 评论。

在这里插入图片描述

Reference

https://openai.com/index/hello-gpt-4o/

https://openai.com/index/gpt-4o-and-more-tools-to-chatgpt-free/

https://blog.samaltman.com/gpt-4o

https://www.businessinsider.com/openai-sam-altman-universal-basic-income-idea-compute-gpt-7-2024-5

https://mp.weixin.qq.com/s/PfWnlhXh3n3VDfZaMI-ifQ

这篇关于GPT4o速测:约0.5秒延迟的多模态能力的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/988639

相关文章

【文末附gpt升级秘笈】腾讯元宝AI搜索解析能力升级:千万字超长文处理的新里程碑

腾讯元宝AI搜索解析能力升级:千万字超长文处理的新里程碑 一、引言 随着人工智能技术的飞速发展,自然语言处理(NLP)和机器学习(ML)在各行各业的应用日益广泛。其中,AI搜索解析能力作为信息检索和知识抽取的核心技术,受到了广泛的关注和研究。腾讯作为互联网行业的领军企业,其在AI领域的探索和创新一直走在前列。近日,腾讯旗下的AI大模型应用——腾讯元宝,迎来了1.1.7版本的升级,新版本在AI搜

大型网站架构演化(四)——使用应用服务器集群改善网站的并发能力

使用集群是网站解决高并发、海量数据问题的常用手段。当一台服务器的处理能力、存储空间不足时,不要企图去更换更强大的服务器,对大型服务器而言,不管多么强大的服务器,都满足不了网站持续增长的业务需求。这种情况下,更恰当的做法是增加一台服务器分担原有服务器的访问及存储压力。 对网站架构而言,只要能通过增加一台服务器的方式改善负载压力,就可以以同样的方式持续增加服务器不断改善系统性能,从而实现系统

js预加载/延迟加载

js预加载/延迟加载  博客分类:  · javascript 浏览器面试Chrome腾讯jQuery  在面试中问道了问题,虽然也看过相关资料,但是还是需要增强和梳理下,这些方式出现的需求和实现上的区别。  Pre loader 预加载一般有两种常用方式:xhr和动态插入节点的方式。动态插入节点是最为简单也最为广泛的一种异步加载方式,然后使用动态插入节点方法加载的文件都会在加载后立即执

Vue3的Teleport:Teleport是Vue3的一个新功能,它允许我们将子组件渲染到父组件以外的地方,这在处理模态框、弹出窗口等情况时非常有用

I. Teleport 的概述 Teleport 的定义:   在 Vue 3.0 中,Teleport 是一个新的内置组件,它允许我们将任何部分的渲染内容 Teleport(传送)到 Vue 应用范围之外的地方。 换句话说,你可以控制片段,让它们在 DOM 中的任何位置渲染,而不仅仅是在当前组件内部。   Teleport 的效用和应用场景:   Teleport 的主要用途是处理在 UI

鸿蒙开发系统基础能力:【@ohos.hiAppEvent (应用打点)】

应用打点 本模块提供了应用事件打点能力,包括对打点数据的落盘,以及对打点功能的管理配置。  说明:  本模块首批接口从API version 7开始支持。后续版本的新增接口,采用上角标单独标记接口的起始版本。 导入模块 import hiAppEvent from '@ohos.hiAppEvent'; hiAppEvent.write write(eventName: str

Program-of-Thoughts(PoT):结合Python工具和CoT提升大语言模型数学推理能力

Program of Thoughts Prompting:Disentangling Computation from Reasoning for Numerical Reasoning Tasks github:https://github.com/wenhuchen/Program-of-Thoughts 一、动机 数学运算和金融方面都涉及算术推理。先前方法采用监督训练的形式,但这种方

【华东南AWDP】第十七届全国大学生信息安全竞赛 CISCN 2024 创新实践能力赛区域赛 部分题解WP

前言:这次区域赛AWDP安恒作为支持,赛制风格遵循安恒,一小时check一次。室温35°在室内坐了8小时,午饭是藿香正气水拌冰水。这场总体下来中规中矩吧。 WEB-welcome-BREAK Ctrl+U拿到flag WEB-submit-BREAK 文件上传,简单绕过 绕过就两个,一个MIMA头,一个等号换php(短标签) WEB-submit-FIX 修两个点,一个是

AI智能时代:ChatGPT如何在金融市场发挥策略分析与预测能力?

文章目录 一、ChatGPT在金融策略制定中的深度应用客户需求分析与定制化策略市场动态跟踪与策略调整策略分析与优化 二、ChatGPT在算法交易中的深度应用自动交易策略制定交易执行与监控风险管理 三、未来展望《智能量化:ChatGPT在金融策略与算法交易中的实践》亮点内容简介作者简介目录获取方式 随着人工智能技术的飞速发展,ChatGPT作为一种先进的自然语言处理模型,正逐渐

mybatis的延迟加载,一级缓存,二级缓存

MyBatis 延迟加载,一级缓存,二级缓存设置 什么是延迟加载          resultMap中的association和collection标签具有延迟加载的功能。         延迟加载的意思是说,在关联查询时,利用延迟加载,先加载主信息。使用关联信息时再去加载关联信息。 设置延迟加载         需要在SqlMapConfig.xml文件中,在<se

Vision Pro的3D跟踪能力:B端应用的工作流、使用教程和经验总结

Vision Pro的最新3D跟踪能力为工业、文博、营销等多个B端领域带来了革命性的交互体验。本文将详细介绍这一功能的工作流、使用教程,并结合实际经验进行总结。 第一部分:工作流详解 一、对象扫描 使用Reality Composer iPhone应用程序对目标对象进行3D扫描,如吉他或雕塑,生成精确的3D模型。 二、模型训练 工具:CreateML训练数据:以Reality