GPT-4o通过整合文本、音频和视觉实现人性化的AI交互

2024-05-16 13:52

本文主要是介绍GPT-4o通过整合文本、音频和视觉实现人性化的AI交互,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

GPT-4o通过整合文本、音频和视觉实现人性化的AI交互

OpenAI推出了其新的旗舰模型GPT-4o,它无缝整合了文本、音频和视觉输入与输出,有望提高机器交互的自然性。现在Plus用户可以直接使用GPT-4o,关于如何开通Plus,可以使用WildCard平台。

GPT-4o中的"o"代表"omni"(全方位),旨在满足更广泛的输入和输出模式。OpenAI宣布:"它接受任何文本、音频和图像的组合作为输入,并生成文本、音频和图像输出的任何组合。"WildCard也支持Claude, Midjourney, Adobe, Patreon, Midjourney, OF, X等的订阅。

用户可以期待与人类对话速度一样快的232毫秒的响应时间,平均响应时间为320毫秒,令人印象深刻。

开创性的能力

GPT-4o的推出标志着与其前身相比的一大飞跃,通过单一神经网络处理所有输入和输出。这种方法使模型能够保留在早期版本中使用的独立模型管道中丢失的关键信息和上下文。

在GPT-4o之前,"语音模式"可以处理GPT-3.5的2.8秒延迟和GPT-4的5.4秒延迟的音频交互。之前的设置涉及三个不同的模型:一个用于将音频转录为文本,另一个用于文本响应,第三个用于将文本转换回音频。这种分割导致了语气、多个说话者和背景噪音等细微差别的丢失。

作为一个集成解决方案,GPT-4o在视觉和音频理解方面有显著改进。它可以执行更复杂的任务,如和声歌曲、提供实时翻译,甚至生成带有表现元素的输出,如笑声和歌声。其广泛能力的例子包括准备面试、即时翻译语言以及生成客户服务响应。

Superintelligent的创始人兼首席执行官Nathaniel Whittemore评论道:“产品公告本质上比技术公告更具分歧性,因为在实际与产品互动之前很难判断产品是否真正不同。特别是当涉及人机交互的不同模式时,对其有用性的看法会更加多样化。话虽如此,没有宣布GPT-4.5或GPT-5的事实也分散了人们对这是一个原生多模态模型的技术进步的注意力。它不是一个带有语音或图像附加功能的文本模型;它是一个多模态令牌输入,多模态令牌输出。这开启了大量用例,需要一些时间才能渗透到人们的意识中。”

性能和安全性

GPT-4o在英语文本和编码任务方面与GPT-4 Turbo的性能水平相当,但在非英语语言方面明显优于后者,使其成为一个更具包容性和通用性的模型。它在推理方面设定了一个新的基准,在0-shot COT MMLU(一般知识问题)上获得了88.7%的高分,在5-shot no-CoT MMLU上获得了87.2%的高分。

image-20240516101146723

该模型在音频和翻译基准测试中也表现出色,超过了之前最先进的模型,如Whisper-v3。在多语言和视觉评估中,它展示了卓越的性能,增强了OpenAI的多语言、音频和视觉能力。

OpenAI通过设计将强大的安全措施纳入GPT-4o,结合过滤训练数据的技术,并通过训练后的保障措施完善行为。该模型已通过准备框架进行评估,并符合OpenAI的自愿承诺。在网络安全、说服力和模型自主性等领域的评估表明,GPT-4o在任何类别中都没有超过"中等"风险级别。

进一步的安全评估涉及广泛的外部红队测试,有70多名来自社会心理学、偏见、公平和错误信息等各个领域的专家参与。这种全面的审查旨在减轻GPT-4o新模式带来的风险。

可用性和未来集成

从今天开始,GPT-4o的文本和图像功能可在ChatGPT中使用,包括免费版和Plus用户的扩展功能,但是免费版的每天仅仅只有几次的试用。未来几周内,由GPT-4o驱动的新语音模式将在ChatGPT Plus中进行Alpha测试。

开发人员可以通过API访问GPT-4o进行文本和视觉任务,与GPT-4 Turbo相比,它的速度提高了一倍,价格降低了一半,速率限制也得到了提高。

OpenAI计划通过API将GPT-4o的音频和视频功能扩展到一组精选的可信合作伙伴,预计在不久的将来会进行更广泛的推广。这种分阶段发布策略旨在确保在公开提供全部功能之前进行彻底的安全性和可用性测试。

Whittemore解释说:“他们免费向所有人提供这个模型,并使API价格降低50%,这一点非常重要。这大大提高了可访问性。”

OpenAI邀请社区反馈,以不断完善GPT-4o,强调用户输入在识别和弥合GPT-4 Turbo可能仍然优于GPT-4o的差距方面的重要性。

这篇关于GPT-4o通过整合文本、音频和视觉实现人性化的AI交互的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/995096

相关文章

MySQL更新某个字段拼接固定字符串的实现

《MySQL更新某个字段拼接固定字符串的实现》在MySQL中,我们经常需要对数据库中的某个字段进行更新操作,本文就来介绍一下MySQL更新某个字段拼接固定字符串的实现,感兴趣的可以了解一下... 目录1. 查看字段当前值2. 更新字段拼接固定字符串3. 验证更新结果mysql更新某个字段拼接固定字符串 -

java实现延迟/超时/定时问题

《java实现延迟/超时/定时问题》:本文主要介绍java实现延迟/超时/定时问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录Java实现延迟/超时/定时java 每间隔5秒执行一次,一共执行5次然后结束scheduleAtFixedRate 和 schedu

Java Optional避免空指针异常的实现

《JavaOptional避免空指针异常的实现》空指针异常一直是困扰开发者的常见问题之一,本文主要介绍了JavaOptional避免空指针异常的实现,帮助开发者编写更健壮、可读性更高的代码,减少因... 目录一、Optional 概述二、Optional 的创建三、Optional 的常用方法四、Optio

在Android平台上实现消息推送功能

《在Android平台上实现消息推送功能》随着移动互联网应用的飞速发展,消息推送已成为移动应用中不可或缺的功能,在Android平台上,实现消息推送涉及到服务端的消息发送、客户端的消息接收、通知渠道(... 目录一、项目概述二、相关知识介绍2.1 消息推送的基本原理2.2 Firebase Cloud Me

Spring Boot项目中结合MyBatis实现MySQL的自动主从切换功能

《SpringBoot项目中结合MyBatis实现MySQL的自动主从切换功能》:本文主要介绍SpringBoot项目中结合MyBatis实现MySQL的自动主从切换功能,本文分步骤给大家介绍的... 目录原理解析1. mysql主从复制(Master-Slave Replication)2. 读写分离3.

Redis实现延迟任务的三种方法详解

《Redis实现延迟任务的三种方法详解》延迟任务(DelayedTask)是指在未来的某个时间点,执行相应的任务,本文为大家整理了三种常见的实现方法,感兴趣的小伙伴可以参考一下... 目录1.前言2.Redis如何实现延迟任务3.代码实现3.1. 过期键通知事件实现3.2. 使用ZSet实现延迟任务3.3

基于Python和MoviePy实现照片管理和视频合成工具

《基于Python和MoviePy实现照片管理和视频合成工具》在这篇博客中,我们将详细剖析一个基于Python的图形界面应用程序,该程序使用wxPython构建用户界面,并结合MoviePy、Pill... 目录引言项目概述代码结构分析1. 导入和依赖2. 主类:PhotoManager初始化方法:__in

springboot filter实现请求响应全链路拦截

《springbootfilter实现请求响应全链路拦截》这篇文章主要为大家详细介绍了SpringBoot如何结合Filter同时拦截请求和响应,从而实现​​日志采集自动化,感兴趣的小伙伴可以跟随小... 目录一、为什么你需要这个过滤器?​​​二、核心实现:一个Filter搞定双向数据流​​​​三、完整代码

SpringBoot利用@Validated注解优雅实现参数校验

《SpringBoot利用@Validated注解优雅实现参数校验》在开发Web应用时,用户输入的合法性校验是保障系统稳定性的基础,​SpringBoot的@Validated注解提供了一种更优雅的解... 目录​一、为什么需要参数校验二、Validated 的核心用法​1. 基础校验2. php分组校验3

Python实现AVIF图片与其他图片格式间的批量转换

《Python实现AVIF图片与其他图片格式间的批量转换》这篇文章主要为大家详细介绍了如何使用Pillow库实现AVIF与其他格式的相互转换,即将AVIF转换为常见的格式,比如JPG或PNG,需要的小... 目录环境配置1.将单个 AVIF 图片转换为 JPG 和 PNG2.批量转换目录下所有 AVIF 图