MetaAI语音翻译大模型Seamless登场,主打AI无缝同声传译

本文主要是介绍MetaAI语音翻译大模型Seamless登场,主打AI无缝同声传译,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

32803256fac24f11a4a1e3a38ac626d0.png

论文题目: Seamless: Multilingual Expressive and Streaming Speech Translation
论文链接: https://ai.meta.com/research/publications/seamless-multilingual-expressive-and-streaming-speech-translation/
代码链接: GitHub - facebookresearch/seamless_communication: Foundational Models for State-of-the-Art Speech and Text Translation
项目主页: https://ai.meta.com/research/seamless-communication/

今年以来,以ChatGPT和GPT-4为代表的大型语言模型和视觉语言多模态大模型几乎完全引领了人工智能领域发展的潮流,在垂直领域也衍生出了一些行业专用的大模型,例如金融大模型、交通大模型和遥感大模型等。而对于数据输入的三种基本模态而言,语音信号在AI领域的重要性也不言而喻。近期,MetaAI的研究团队发布了一套全流程的语言语音大模型Seamless(”无缝沟通“),Seamless主打流畅高效的多语言无缝翻译功能,在传统翻译系统的基础上,对用户的说话方式进行快速模拟,保证翻译出的语音信号完整保留用户的语气、停顿和强调音等关键信息,帮助我们更好的传递情感和意图。需要指出的是,Seamless是由三个基础模型构成:

(1)SeamlessExpressive:旨在保留跨语言的表达方式和复杂性的模型,目前已经支持英语、西班牙语、德语、法语、意大利语和中文等语言。

(2)SeamlessStreaming:高效的流媒体翻译模型,可在大约两秒的延迟下进行语音和文本翻译。

(3)SeamlessM4T v2:是Meta在今年8月份发布的SeamlessM4T升级版本,基础的多语言和多任务模型,在接近450万小时的语音数据上进行了训练,在自动语音识别、语音转语音、语音转文本和文本转语音等多种基线任务上实现了性能提升。

Seamless一经发布就引起了广泛的关注,作为Meta首席人工智能科学家的LeCun第一时间为Seamless进行宣传。

114d6dce23cb4d0ca8bfa4ccd7561da4.png

此外,开源区大佬Georgi Gerganov已经开始了对Seamless的Cpp重写和推理加速工作,先前,Georgi Gerganov已经对Meta的LLaMA、OpenAI的Wisper等明星大模型开发了C++版本,其中llama.cpp在GitHub上的star数已经突破了6.5w。

07d42be0587c4d99b81576a322e765c2.png

01. 多任务基座模型SeamlessM4T v2

多任务预训练范式可以说是GPT系列模型的底层技术,Seamless作为语音翻译领域的统一系统,同样借鉴了这样的构建逻辑。SeamlessM4T在广泛的语种和语音翻译任务上进行了大规模预训练,作者团队在构建SeamlessM4T v2版本时,重点对其多任务预测单元UnitY进行了升级,SeamlessM4T v2将语音翻译任务分为语音到文本翻译(speech-to-text translation,S2TT)和文本到单元转换(text-to-unit conversion,T2U)两种。由于先前版本的UnitY在面对语音序列和文本序列长度不匹配情况时出现幻觉现象,作者提出了一种新的两阶段UnitY2单元,UnitY2采用了一种非自回归(non-autoregressive,NAR)的单元解码器架构,可以更好的对离散单元进行建模,基于UnitY2预测单元的SeamlessM4T v2模型整体架构如下图所示。

76c2c9b576cd4f5eb11c967cb943e264.png

UnitY2的更新提高了SeamlessM4T v2在各种任务上的翻译质量,目前,SeamlessM4T v2 实现了在 100 种语言上的语音到语音和语音到文本翻译的SOTA性能

7b901d8870384256b49f5a28e1946406.png

02. SeamlessExpressive完美攻克翻译语调保留难题

语音中的韵律在人类交流中扮演着重要的角色,它能够表现出说话者的情绪状态、态度和意图,而这一重要因素在以往的语音翻译模型和系统中却被忽视了。通常,我们会使用音调(高或低)、响度(强或弱)和持续时间(快或慢)的变化来在不同情况下表达自己的真实意图,SeamlessExpressive可以在保留语义内容不变的情况下,精确捕捉说话人的语速和停顿等信息,并使用目标语言进行转述

13a06fdc29f74642b93997b61c55055a.gif

下图展示了SeamlessExpressive的整体框架,从实现角度来看,SeamlessExpressive主要基于SeamlessM4T v2模型进行构建,其继承了高质量的语义翻译能力。作者团队提出了一种基于UnitY2单元的韵律感知单元Prosody UnitY2,同时提出了一种无文本的声学模型PRETSSEL,Prosody UnitY2 和 PRETSSEL 可以在传递源语言语音的表现力方面进行相互补充。具体来说,Prosody UnitY2 主要关注语音中的短语级韵律,例如语速或停顿,而 PRETSSEL 则更着重于翻译话语级的表达力,例如整体的声音风格。

927977bab3534840bb0675023db273a0.png

为了实现在多种语言之间的韵律对齐,作者通过数据调试、自动对齐和合成等手段构建了一个大规模的韵律对齐和语音对齐数据集,同时支持英语、法语、德语、意大利语、普通话和西班牙语在内的6种语言。

03. 同声传译SeamlessStreaming

在国际会议中,同声传译是一个非常关键的会议任务,人类口译员需要快速的理解说话人的含义,并根据自己的经验知识在低延迟和准确翻译之间找到一个适当的平衡,还需要留意说话人的语调、停顿和态度等信号,综合来看,该任务的难度系数非常高,SeamlessStreaming完美实现了以上列出的同声传译要点。

2a375e60214942c89e4bab44ef5492c5.gif

与传统翻译系统相比,SeamlessStreaming并不是等说话人说完句子才进行翻译,而是与说话人几乎相同的步调进行翻译,这能够实现一种接近于实时翻译的效果。目前,SeamlessStreaming 支持近 100 种输入和输出语言的自动语音识别和语音到文本翻译。

1394f072ae5b490389a4396d7211240f.png

SeamlessStreaming直接从SeamlessM4T v2进行初始化,其构建过程如下图所示,其继承了SeamlessM4T v2模型的多任务实时翻译能力。SeamlessStreaming的高效流推理能力主要来源于研究团队提出的新型EMMA(Efficient Monotonic Multihead Attention)多头注意力模块,EMMA是一种单调注意力方法,其中的每个注意力头都执行单独的同步策略。这使得模型能够智能地判断当前状态是否拥有足够的信息量来生成下一个语音片段或目标文本,这对于低时延的语音翻译至关重要,特别是对于长输入序列。

04. 音频水印技术

虽然目前的大模型可以帮助我们更好的进行生产生活,但同样重要的是,我们必须考虑采取一定的措施来防止这些技术被滥用到有危害的场景中,因此MetaAI研究团队针对Seamless开发了一种音频水印技术,这种水印主要基于一些人耳无法察觉的信号,但仍然可以使用检测器模型在音频中检测到。

6b92c13750f446549d3ed579fa2b3451.png

除了能够对生成音频进行身份信息验证之外,Seamless水印还支持抗攻击能力,例如一些破坏者可能会尝试通过添加噪声、回声或过滤某些频率来修改音频,以淡化水印来绕过检测。Seamless水印对多种攻击方式都具有良好的鲁棒性,并且可以实现精确到帧的音频片段定位效果。此外,作者提到,Seamless水印模型的成本非常低,它可以进行单独微调,而不会影响SeamlessExpressive和SeamlessStreaming的翻译效果。

05. 总结

MetaAI发布的Seamless模型为我们展现出了惊人的同声传译效果,并且支持近 100 种语言,其中的多任务基础模型SeamlessM4T v2在多个语音基线上实现了SOTA性能,Seamless Expressive可以保证翻译时保留说话人的韵律和语音风格,SeamlessStreaming中的高效多头注意力EMMA可以有针对性地实现并行低延迟翻译,而无需等待当前话语结束。作为下一代语音智能大模型,Seamless系列模型所展现出的端到端多语言、富有表现力和低时延的流媒体式翻译模式,标志着人工智能技术在语音翻译领域实现了全新的突破。


关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区 

这篇关于MetaAI语音翻译大模型Seamless登场,主打AI无缝同声传译的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/563566

相关文章

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

AI绘图怎么变现?想做点副业的小白必看!

在科技飞速发展的今天,AI绘图作为一种新兴技术,不仅改变了艺术创作的方式,也为创作者提供了多种变现途径。本文将详细探讨几种常见的AI绘图变现方式,帮助创作者更好地利用这一技术实现经济收益。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 定制服务:个性化的创意商机 个性化定制 AI绘图技术能够根据用户需求生成个性化的头像、壁纸、插画等作品。例如,姓氏头像在电商平台上非常受欢迎,

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

从去中心化到智能化:Web3如何与AI共同塑造数字生态

在数字时代的演进中,Web3和人工智能(AI)正成为塑造未来互联网的两大核心力量。Web3的去中心化理念与AI的智能化技术,正相互交织,共同推动数字生态的变革。本文将探讨Web3与AI的融合如何改变数字世界,并展望这一新兴组合如何重塑我们的在线体验。 Web3的去中心化愿景 Web3代表了互联网的第三代发展,它基于去中心化的区块链技术,旨在创建一个开放、透明且用户主导的数字生态。不同于传统

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

让树莓派智能语音助手实现定时提醒功能

最初的时候是想直接在rasa 的chatbot上实现,因为rasa本身是带有remindschedule模块的。不过经过一番折腾后,忽然发现,chatbot上实现的定时,语音助手不一定会有响应。因为,我目前语音助手的代码设置了长时间无应答会结束对话,这样一来,chatbot定时提醒的触发就不会被语音助手获悉。那怎么让语音助手也具有定时提醒功能呢? 我最后选择的方法是用threading.Time

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

4B参数秒杀GPT-3.5:MiniCPM 3.0惊艳登场!

​ 面壁智能 在 AI 的世界里,总有那么几个时刻让人惊叹不已。面壁智能推出的 MiniCPM 3.0,这个仅有4B参数的"小钢炮",正在以惊人的实力挑战着 GPT-3.5 这个曾经的AI巨人。 MiniCPM 3.0 MiniCPM 3.0 MiniCPM 3.0 目前的主要功能有: 长上下文功能:原生支持 32k 上下文长度,性能完美。我们引入了