GPT-4o通过整合文本、音频和视觉实现人性化的AI交互

2024-05-16 13:52

本文主要是介绍GPT-4o通过整合文本、音频和视觉实现人性化的AI交互,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

GPT-4o通过整合文本、音频和视觉实现人性化的AI交互

OpenAI推出了其新的旗舰模型GPT-4o,它无缝整合了文本、音频和视觉输入与输出,有望提高机器交互的自然性。现在Plus用户可以直接使用GPT-4o,关于如何开通Plus,可以使用WildCard平台。

GPT-4o中的"o"代表"omni"(全方位),旨在满足更广泛的输入和输出模式。OpenAI宣布:"它接受任何文本、音频和图像的组合作为输入,并生成文本、音频和图像输出的任何组合。"WildCard也支持Claude, Midjourney, Adobe, Patreon, Midjourney, OF, X等的订阅。

用户可以期待与人类对话速度一样快的232毫秒的响应时间,平均响应时间为320毫秒,令人印象深刻。

开创性的能力

GPT-4o的推出标志着与其前身相比的一大飞跃,通过单一神经网络处理所有输入和输出。这种方法使模型能够保留在早期版本中使用的独立模型管道中丢失的关键信息和上下文。

在GPT-4o之前,"语音模式"可以处理GPT-3.5的2.8秒延迟和GPT-4的5.4秒延迟的音频交互。之前的设置涉及三个不同的模型:一个用于将音频转录为文本,另一个用于文本响应,第三个用于将文本转换回音频。这种分割导致了语气、多个说话者和背景噪音等细微差别的丢失。

作为一个集成解决方案,GPT-4o在视觉和音频理解方面有显著改进。它可以执行更复杂的任务,如和声歌曲、提供实时翻译,甚至生成带有表现元素的输出,如笑声和歌声。其广泛能力的例子包括准备面试、即时翻译语言以及生成客户服务响应。

Superintelligent的创始人兼首席执行官Nathaniel Whittemore评论道:“产品公告本质上比技术公告更具分歧性,因为在实际与产品互动之前很难判断产品是否真正不同。特别是当涉及人机交互的不同模式时,对其有用性的看法会更加多样化。话虽如此,没有宣布GPT-4.5或GPT-5的事实也分散了人们对这是一个原生多模态模型的技术进步的注意力。它不是一个带有语音或图像附加功能的文本模型;它是一个多模态令牌输入,多模态令牌输出。这开启了大量用例,需要一些时间才能渗透到人们的意识中。”

性能和安全性

GPT-4o在英语文本和编码任务方面与GPT-4 Turbo的性能水平相当,但在非英语语言方面明显优于后者,使其成为一个更具包容性和通用性的模型。它在推理方面设定了一个新的基准,在0-shot COT MMLU(一般知识问题)上获得了88.7%的高分,在5-shot no-CoT MMLU上获得了87.2%的高分。

image-20240516101146723

该模型在音频和翻译基准测试中也表现出色,超过了之前最先进的模型,如Whisper-v3。在多语言和视觉评估中,它展示了卓越的性能,增强了OpenAI的多语言、音频和视觉能力。

OpenAI通过设计将强大的安全措施纳入GPT-4o,结合过滤训练数据的技术,并通过训练后的保障措施完善行为。该模型已通过准备框架进行评估,并符合OpenAI的自愿承诺。在网络安全、说服力和模型自主性等领域的评估表明,GPT-4o在任何类别中都没有超过"中等"风险级别。

进一步的安全评估涉及广泛的外部红队测试,有70多名来自社会心理学、偏见、公平和错误信息等各个领域的专家参与。这种全面的审查旨在减轻GPT-4o新模式带来的风险。

可用性和未来集成

从今天开始,GPT-4o的文本和图像功能可在ChatGPT中使用,包括免费版和Plus用户的扩展功能,但是免费版的每天仅仅只有几次的试用。未来几周内,由GPT-4o驱动的新语音模式将在ChatGPT Plus中进行Alpha测试。

开发人员可以通过API访问GPT-4o进行文本和视觉任务,与GPT-4 Turbo相比,它的速度提高了一倍,价格降低了一半,速率限制也得到了提高。

OpenAI计划通过API将GPT-4o的音频和视频功能扩展到一组精选的可信合作伙伴,预计在不久的将来会进行更广泛的推广。这种分阶段发布策略旨在确保在公开提供全部功能之前进行彻底的安全性和可用性测试。

Whittemore解释说:“他们免费向所有人提供这个模型,并使API价格降低50%,这一点非常重要。这大大提高了可访问性。”

OpenAI邀请社区反馈,以不断完善GPT-4o,强调用户输入在识别和弥合GPT-4 Turbo可能仍然优于GPT-4o的差距方面的重要性。

这篇关于GPT-4o通过整合文本、音频和视觉实现人性化的AI交互的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/995096

相关文章

python使用watchdog实现文件资源监控

《python使用watchdog实现文件资源监控》watchdog支持跨平台文件资源监控,可以检测指定文件夹下文件及文件夹变动,下面我们来看看Python如何使用watchdog实现文件资源监控吧... python文件监控库watchdogs简介随着Python在各种应用领域中的广泛使用,其生态环境也

el-select下拉选择缓存的实现

《el-select下拉选择缓存的实现》本文主要介绍了在使用el-select实现下拉选择缓存时遇到的问题及解决方案,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的... 目录项目场景:问题描述解决方案:项目场景:从左侧列表中选取字段填入右侧下拉多选框,用户可以对右侧

springboot整合 xxl-job及使用步骤

《springboot整合xxl-job及使用步骤》XXL-JOB是一个分布式任务调度平台,用于解决分布式系统中的任务调度和管理问题,文章详细介绍了XXL-JOB的架构,包括调度中心、执行器和Web... 目录一、xxl-job是什么二、使用步骤1. 下载并运行管理端代码2. 访问管理页面,确认是否启动成功

Python pyinstaller实现图形化打包工具

《Pythonpyinstaller实现图形化打包工具》:本文主要介绍一个使用PythonPYQT5制作的关于pyinstaller打包工具,代替传统的cmd黑窗口模式打包页面,实现更快捷方便的... 目录1.简介2.运行效果3.相关源码1.简介一个使用python PYQT5制作的关于pyinstall

使用Python实现大文件切片上传及断点续传的方法

《使用Python实现大文件切片上传及断点续传的方法》本文介绍了使用Python实现大文件切片上传及断点续传的方法,包括功能模块划分(获取上传文件接口状态、临时文件夹状态信息、切片上传、切片合并)、整... 目录概要整体架构流程技术细节获取上传文件状态接口获取临时文件夹状态信息接口切片上传功能文件合并功能小

python实现自动登录12306自动抢票功能

《python实现自动登录12306自动抢票功能》随着互联网技术的发展,越来越多的人选择通过网络平台购票,特别是在中国,12306作为官方火车票预订平台,承担了巨大的访问量,对于热门线路或者节假日出行... 目录一、遇到的问题?二、改进三、进阶–展望总结一、遇到的问题?1.url-正确的表头:就是首先ur

C#实现文件读写到SQLite数据库

《C#实现文件读写到SQLite数据库》这篇文章主要为大家详细介绍了使用C#将文件读写到SQLite数据库的几种方法,文中的示例代码讲解详细,感兴趣的小伙伴可以参考一下... 目录1. 使用 BLOB 存储文件2. 存储文件路径3. 分块存储文件《文件读写到SQLite数据库China编程的方法》博客中,介绍了文

Redis主从复制实现原理分析

《Redis主从复制实现原理分析》Redis主从复制通过Sync和CommandPropagate阶段实现数据同步,2.8版本后引入Psync指令,根据复制偏移量进行全量或部分同步,优化了数据传输效率... 目录Redis主DodMIK从复制实现原理实现原理Psync: 2.8版本后总结Redis主从复制实

JAVA利用顺序表实现“杨辉三角”的思路及代码示例

《JAVA利用顺序表实现“杨辉三角”的思路及代码示例》杨辉三角形是中国古代数学的杰出研究成果之一,是我国北宋数学家贾宪于1050年首先发现并使用的,:本文主要介绍JAVA利用顺序表实现杨辉三角的思... 目录一:“杨辉三角”题目链接二:题解代码:三:题解思路:总结一:“杨辉三角”题目链接题目链接:点击这里

基于Python实现PDF动画翻页效果的阅读器

《基于Python实现PDF动画翻页效果的阅读器》在这篇博客中,我们将深入分析一个基于wxPython实现的PDF阅读器程序,该程序支持加载PDF文件并显示页面内容,同时支持页面切换动画效果,文中有详... 目录全部代码代码结构初始化 UI 界面加载 PDF 文件显示 PDF 页面页面切换动画运行效果总结主