OpenAI发布Voice Engine模型!用AI合成你的声音!

2024-03-30 08:36

本文主要是介绍OpenAI发布Voice Engine模型!用AI合成你的声音!,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于AI科普AI工具测评AI效率提升AI行业洞察。关注我,AI之路不迷路,2024我们一起变强。

北美时间3月29日,OpenAI继续大秀肌肉,在一篇博客中发布并展示了一款AI合成语音的模型,Voice Engine。Voice Engine的核心功能是从15秒的录音中生成接近说话者音色的自然语音。如果你上传自己的录音和一段文本,它可以使用听起来像你的AI合成语音来读取文本。并且,文本不必是母语。例如,Voice Engine可以用中文、英语、西班牙语、法语或许多其他语言重新创建你的声音。

和之前公布的文本生成视频模型Sora一样,OpenAI并没有公测Voice Engine这项技术,而是仅对少部分内测用户开放。据OpenAI官方表示,它仍在探索这项AI技术潜在的风险。与图像和视频生成模型一样,语音生成模型很有可能被用在社交媒体上散布虚假信息,并且可能被犯罪分子用来在网上或电话中冒充他人。OpenAI担心Voice Engine可能被用来破解银行账户和其他个人应用程序访问的声音认证系统。

OpenAI的产品经理Jeff Harris在接受采访时表示:“This is a sensitive thing, and it is important to get it right. (这是一个敏感的问题,正确处理它非常重要。)”OpenAI正在探索为合成声音添加水印或控制措施,以防止人们使用该技术模仿政治家或其他知名人物的声音。

Voice Engine早期应用场景

早在2022年底,OpenAI就已开发Voice Engine,并使用它来为文本转语音(TTS)API中的预设声音以及ChatGPT Voice和Read Aloud提供支持。OpenAI表示它一直抱着谨慎的态度,防止AI合成的声音被滥用。目前Voice Engine正在进行小规模测试,OpenAI将根据小规模测试结果做出关于是否以及如何在更大规模上部署这项技术的决定。

关于文本转语音TTS技术感兴趣的小伙伴可以看我之前的这篇文章:ChatGPT最新功能“Text To Speech (TTS,文本转语音)”详细解读!

Voice Engine自去年开始的早期应用场景包括:

  1. 教育辅助与个性化互动

    • 通过听起来很自然、富有情感的声音为阅读障碍人群和儿童提供阅读辅助,提供比一些预设声音更广泛的音色。致力于儿童学术的教育技术公司Age of Learning一直在使用这项技术来生成预设脚本的配音内容。他们还使用Voice Engine和GPT-4来创建实时、个性化的响应,与学生互动。通过这项技术,Age of Learning能够为更广泛的受众创造更多内容。

  2. 多语言视频和播客翻译

    • Voice Engine技术支持将内容如视频和播客翻译成多种语言,使创作者和企业能够以自己的语言流利地触及全球观众。早期使用者之一是HeyGen,这是一个AI视觉叙事平台,与他们的企业客户合作,为各种内容创建定制的、类人化的头像,从产品营销到销售演示。他们使用Voice Engine进行视频翻译,这样他们可以将说话者的声音翻译成多种语言,并触及全球观众。当用于翻译时,Voice Engine保留了原始说话者的本地口音:例如,使用法语说话者的音频样本生成的英语会带有法语口音。

  3. 提升偏远地区服务交付

    • 通过改善偏远地区的基本服务交付,触达全球社区。Dimagi正在为社区卫生工作者构建工具,以提供各种基本服务,例如为哺乳母亲提供咨询。为了帮助这些工作者发展他们的技能,Dimagi使用Voice Engine和GPT-4以每位工作者的主要语言提供交互式反馈,包括斯瓦希里语或像Sheng这样的非正式语言,Sheng是肯尼亚流行的混合代码语言。

  4. 增强语言障碍人群的沟通能力

    • 支持无法用语言进行沟通的人群,例如为影响语言的疾病患者的治疗应用和为有学习需求的人提供教育增强。Livox是一个AI替代通讯应用程序,为残疾人提供增强性和替代性通讯(AAC)设备。通过使用Voice Engine,他们能够为非言语人群提供独特且非机械的声音,涵盖多种语言。他们的用户可以选择最能代表他们的声音,对于多语言用户来说,可以在每种口语中保持一致的声音。

  5. 帮助患者恢复声音

    • 帮助患者恢复声音。布朗大学医学院的主要教学附属机构,Norman Prince Neurosciences Institute正在探索AI在临床环境中的用途。他们一直在试行一个项目,为因肿瘤或神经原因导致言语障碍的个体提供Voice Engine。由于Voice Engine只需要15s之短的音频样本,医生Fatima Mirza、Rohaid Ali和Konstantina Svokos能够恢复一位因脑血管肿瘤失去流利语言能力的年轻患者的的声音,使用的是为学校项目录制的视频中的音频。

构建安全的Voice Engine

OpenAI再次强调,在构建Voice Engine时充分意识到AI合成语音技术可能带来的风险,尤其是在选举关键时期。为了确保这项技术的安全使用,OpenAI积极与来自政府、媒体、娱乐、教育和民间社会的美国及国际合作伙伴进行沟通,以获取他们的反馈和建议,并将其融入到技术构建的过程中。

在测试阶段,OpenAI与合作伙伴共同制定了严格的使用政策,明确禁止未经授权的个人或组织声音模仿行为。合作伙伴需获取原始说话者的明确和知情同意,同时确保开发者不为个人用户创建定制声音,并要求向听众明确披露所听到的声音是由AI生成的。此外,为了追踪音频来源并监控使用情况,实施了包括水印技术和主动监控在内的安全措施。OpenAI还提倡建立声音认证机制和禁止声音列表,以防止合成声音与知名人物过于相似,确保技术的负责任部署。

面向未来的技术展望与社会责任

Voice Engine的开发体现了OpenAI对人工智能前沿技术的深入探索和对公开分享其潜力的承诺。在考虑到AI安全性的重要性和对社会的潜在影响下,选择仅进行有限的预览而非全面发布,旨在平衡技术的推广与其可能带来的风险。这一举措旨在展示该技术的潜力,同时唤起社会对于由高度逼真的生成式AI模型所带来的挑战的关注和应对能力。

为了应对AI合成语音技术可能带来的挑战,OpenAI提出了一系列具体的行动建议。这包括逐步淘汰基于声音的认证机制,以增强对敏感信息的保护;探索制定相关政策以保护个人声音不被滥用;普及AI技术的教育,提高公众对技术的理解和对潜在欺骗性内容的警觉;以及加速开发能够追踪音视频内容来源的技术,确保用户能够明确区分真人与AI的互动。

OpenAI博文原文

最后,附上英文版的OpenAI博文原文:

https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices


精选推荐

  1. 完全免费白嫖GPT4的三个方法,都给你整理好了!

  2. AI领域的国产之光,ChatGPT的免费平替:Kimi Chat!

  3. Kimi Chat,不仅仅是聊天!深度剖析Kimi Chat 5大使用场景!

  4. 我用AI工具5分钟制作一个动画微电影!这个AI现在免费!

  5. 当全网都在疯转OpenAI的Sora时,我们普通人能做哪些准备?——关于Sora,你需要了解这些!

  6. 文心一言4.0 VS ChatGPT4.0哪家强?!每月60块的文心一言4.0值得开吗?

  7. ChatGPT和文心一言哪个更好用?一道题告诉你答案!

  8. 字节推出了“扣子”,国内版的Coze,但是我不推荐你用!

  9. 白嫖GPT4,Dalle3和GPT4V - 字节开发的Coze初体验!附教程及提示词Prompt

  10. 2024年了你还在用百度翻译?手把手教会你使用AI翻译!一键翻译网页和PDF文件!


都读到这里了,点个赞鼓励一下吧,小手一赞,年薪百万!😊👍👍👍。关注我,AI之路不迷路,原创技术文章第一时间推送🤖。

这篇关于OpenAI发布Voice Engine模型!用AI合成你的声音!的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/860995

相关文章

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

AI绘图怎么变现?想做点副业的小白必看!

在科技飞速发展的今天,AI绘图作为一种新兴技术,不仅改变了艺术创作的方式,也为创作者提供了多种变现途径。本文将详细探讨几种常见的AI绘图变现方式,帮助创作者更好地利用这一技术实现经济收益。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 定制服务:个性化的创意商机 个性化定制 AI绘图技术能够根据用户需求生成个性化的头像、壁纸、插画等作品。例如,姓氏头像在电商平台上非常受欢迎,

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

从去中心化到智能化:Web3如何与AI共同塑造数字生态

在数字时代的演进中,Web3和人工智能(AI)正成为塑造未来互联网的两大核心力量。Web3的去中心化理念与AI的智能化技术,正相互交织,共同推动数字生态的变革。本文将探讨Web3与AI的融合如何改变数字世界,并展望这一新兴组合如何重塑我们的在线体验。 Web3的去中心化愿景 Web3代表了互联网的第三代发展,它基于去中心化的区块链技术,旨在创建一个开放、透明且用户主导的数字生态。不同于传统

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

高效+灵活,万博智云全球发布AWS无代理跨云容灾方案!

摘要 近日,万博智云推出了基于AWS的无代理跨云容灾解决方案,并与拉丁美洲,中东,亚洲的合作伙伴面向全球开展了联合发布。这一方案以AWS应用环境为基础,将HyperBDR平台的高效、灵活和成本效益优势与无代理功能相结合,为全球企业带来实现了更便捷、经济的数据保护。 一、全球联合发布 9月2日,万博智云CEO Michael Wong在线上平台发布AWS无代理跨云容灾解决方案的阐述视频,介绍了

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}