标贝科技:TensorFlow 框架提升语音合成效果

2023-10-28 17:40

本文主要是介绍标贝科技:TensorFlow 框架提升语音合成效果,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文 / 标贝(北京)科技有限公司


长久以来,传统的语音合成技术,主要围绕着统计参数合成和拼接合成展开,两种方法虽各有利弊,但基本满足了可懂度的要求,语音合成技术得以在多种场景下应用,尤其是导航播报这样的强需求场景。

 

最近几年,基于深度学习的语音合成技术快速发展,语音合成系统中的模型逐步被深度学习模型所替代。

 

尤其是 2016 年,随着 wavenet 技术的问世,将参数合成技术带入了一个新的阶段。神经网络声码器的合成效果,逐步接近拼接合成的音质,而其流畅度明显好于拼接合成。从 wavenet,parallel wavenet,到 waveglow, wavernn 等, 神经网络声码器技术持续进步,算法复杂度不断下降,逐渐让工程化应用成为可能。


640?wx_fmt=jpeg


标贝科技,一直密切关注语音合成技术的演化,分析技术变革所带来的需求场景的可能的变化,充分结合自身的技术优势,投入到新技术的研发当中。

 

标贝科技所研发的语音合成相关模型,都是采用 TensorFlow 框架进行实现的。模型的训练情况,也是通过 TensorBoard 进行分析,从而进行优化。越来越复杂的模型,固然有其优势,但同时也产生了一些不稳定的因素,通过对模型的可视化分析,我们进行了一系列的改进,从而使得模型效果不断提升。

 

TensorFlow 是目前应用最为广泛的开源深度学习框架,不但提供了一些列底层实现,而且提供了很多高级功能,非常便于开展实验研究,快速发现和解决问题。

 

通过利用 TensorFlow,我们可以快速验证相关的算法,并进行改进,大大缩短了技术开发周期,降低了研发成本和风险 — 将输入维度从数万维降为数十维,并且降低了运算量。

 

同时,利用自有的技术和数据资源, 研发了一种基于 Attention 的高质量语音合成系统,通过利用 TensorFlow 搭建的训练平台对声音建模后,合成效果有了明显提升 — 更自然的抑扬顿挫、情感起伏,逼真度也有了进一步提升。


640?wx_fmt=png


本次利用 TensorFlow 模型对合成系统的全新升级,标贝科技以 “声音超市” 的模式,对外提供一系列的语音合成解决方案。新的合成效果以及推广模式都已经得到广大合作伙伴的认可,行业影响力快速提升,成为了语音合成领域的知名企业。

 

同时,标贝科技利用新型合成技术进行了一次大胆的尝试 — 合成娱乐明星、知名 IP 的声音,直接用成果面对更大的用户市场来检验技术和算法。

 

明星的声音是具有极高辨识性的,这个辨识性不单单是指声线的独特。观众和粉丝群体会对这个声音有很高的心理预期。从更像真人到更像本人,除了声音要相似外,还要符合明星本人的个性和发音习惯,这就意味着 “及格线” 提高了。


640?wx_fmt=png


我们联合《创造101》的成员陈意涵、魏瑾,利用新技术合成出她们的声音,将端口放到活动页面中,用户输入任何文字,就能听她们 “亲口” 送上独一无二的专属话语。

 

本次尝试,让标贝科技在活动当天就登上了当天的微博热门话题,当天全网总曝光量达千万次,数百万人使用了这两位明星端口合成语音。除了收获好评外,本次活动也让标贝科技看到了广大的用户市场对于高质量语音合成技术的惊喜和更多期待。

 

未来,标贝科技会利用 TensorFlow 框架所带来的技术红利结合不同的应用场景,通过 “声音超市” 的模式进行技术的落地。对标贝科技来说,仅作为场景需求的解决方是不够的,应用场景有多宽广、语音合成未来能有多好玩,也需要技术人员天马行空的 “造梦”,才能为用户带来更好的声音体验。



更多 AI 相关阅读:

  • 通过机器学习实现实时 AR 自我表达

  • 全神经设备端语音识别器

  • 激活地图集:深入探索图像分类的神经网络



640?wx_fmt=gif

这篇关于标贝科技:TensorFlow 框架提升语音合成效果的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/294875

相关文章

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

让树莓派智能语音助手实现定时提醒功能

最初的时候是想直接在rasa 的chatbot上实现,因为rasa本身是带有remindschedule模块的。不过经过一番折腾后,忽然发现,chatbot上实现的定时,语音助手不一定会有响应。因为,我目前语音助手的代码设置了长时间无应答会结束对话,这样一来,chatbot定时提醒的触发就不会被语音助手获悉。那怎么让语音助手也具有定时提醒功能呢? 我最后选择的方法是用threading.Time

防近视护眼台灯什么牌子好?五款防近视效果好的护眼台灯推荐

在家里,灯具是属于离不开的家具,每个大大小小的地方都需要的照亮,所以一盏好灯是必不可少的,每个发挥着作用。而护眼台灯就起了一个保护眼睛,预防近视的作用。可以保护我们在学习,阅读的时候提供一个合适的光线环境,保护我们的眼睛。防近视护眼台灯什么牌子好?那我们怎么选择一个优秀的护眼台灯也是很重要,才能起到最大的护眼效果。下面五款防近视效果好的护眼台灯推荐: 一:六个推荐防近视效果好的护眼台灯的

cross-plateform 跨平台应用程序-03-如果只选择一个框架,应该选择哪一个?

跨平台系列 cross-plateform 跨平台应用程序-01-概览 cross-plateform 跨平台应用程序-02-有哪些主流技术栈? cross-plateform 跨平台应用程序-03-如果只选择一个框架,应该选择哪一个? cross-plateform 跨平台应用程序-04-React Native 介绍 cross-plateform 跨平台应用程序-05-Flutte

Spring框架5 - 容器的扩展功能 (ApplicationContext)

private static ApplicationContext applicationContext;static {applicationContext = new ClassPathXmlApplicationContext("bean.xml");} BeanFactory的功能扩展类ApplicationContext进行深度的分析。ApplicationConext与 BeanF

从戴尔公司中国大饭店DTF大会,看科技外企如何在中国市场发展

【科技明说 | 科技热点关注】 2024戴尔科技峰会在8月如期举行,虽然因事未能抵达现场参加,我只是观看了网上在线直播,也未能采访到DTF现场重要与会者,但是通过数十年对戴尔的跟踪与观察,我觉得2024戴尔科技峰会给业界传递了6大重要信号。不妨简单聊聊:从戴尔公司中国大饭店DTF大会,看科技外企如何在中国市场发展? 1)退出中国的谣言不攻自破。 之前有不良媒体宣扬戴尔将退出中国的谣言,随着2

数据治理框架-ISO数据治理标准

引言 "数据治理"并不是一个新的概念,国内外有很多组织专注于数据治理理论和实践的研究。目前国际上,主要的数据治理框架有ISO数据治理标准、GDI数据治理框架、DAMA数据治理管理框架等。 ISO数据治理标准 改标准阐述了数据治理的标准、基本原则和数据治理模型,是一套完整的数据治理方法论。 ISO/IEC 38505标准的数据治理方法论的核心内容如下: 数据治理的目标:促进组织高效、合理地

AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出

AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出 在数字化时代,文本到语音(Text-to-Speech, TTS)技术已成为人机交互的关键桥梁,无论是为视障人士提供辅助阅读,还是为智能助手注入声音的灵魂,TTS 技术都扮演着至关重要的角色。从最初的拼接式方法到参数化技术,再到现今的深度学习解决方案,TTS 技术经历了一段长足的进步。这篇文章将带您穿越时

ZooKeeper 中的 Curator 框架解析

Apache ZooKeeper 是一个为分布式应用提供一致性服务的软件。它提供了诸如配置管理、分布式同步、组服务等功能。在使用 ZooKeeper 时,Curator 是一个非常流行的客户端库,它简化了 ZooKeeper 的使用,提供了高级的抽象和丰富的工具。本文将详细介绍 Curator 框架,包括它的设计哲学、核心组件以及如何使用 Curator 来简化 ZooKeeper 的操作。 1

java学习,进阶,提升

http://how2j.cn/k/hutool/hutool-brief/1930.html?p=73689