语音合成综述——亚洲微软谭旭《A Survey on Neural Speech Synthesis》上篇

本文主要是介绍语音合成综述——亚洲微软谭旭《A Survey on Neural Speech Synthesis》上篇,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

受老师关怀、同学帮助,研一磕磕绊绊也算过去了,回过头来总结一下这一年入门不知道入没入进去的语音合成,正好从这篇大佬的综述理一理脉络,也算是研一的一个总结吧。
下图是本篇论文的结构框架图
在这里插入图片描述
论文从两个角度去总结这些年TTS语音合成的发展史,key components和advanced topics,因为文章很长,且我的知识储备并不能覆盖所有的模型,所以我会按照我的进度(较为热门易懂的端到端模型)去总结文章的上下两个部分(Sec2/Sec3),如有疏漏,请见谅。

1.先介绍TTS的合成发展史
1、Articulatory Synthesis最理想的合成方式,通过模拟人类发声器官,缺点是很难对发音行为建模,难以收集模拟数据,所以导致效果较差
2、Formant Synthesis语言学家参与的滤波器模型,尽可能模拟共振峰和频谱特性,模型由加法合成模块加声学模块组成,不依赖大数据库,但是效果偏差,规则无法指定
3、Concatenative Synthesis 使用语音片段句子到音节的发声单元 不自然和情绪化
4、Statistical parametric synthesis统计参数模型,解决了3的缺点,先生成语音所需要的声学参数,然后从其中恢复波形,优点是自然性//灵活性//相较于3数据量减小,缺点是有杂音且不自然。
5、Neural speech synthesis 就是我们最熟知的神经网络模型,这个在后面是细分的大头,这里先按下不表了。
顺便提了一下4中的统计参数模型的组成,其原因是神经网络就是不断地取代一个或者几个部分的功能而推陈出新的
这张图就很好的展示了以下几个名词的关系这张图就很好的展示了几者的关系
①文本分析模块对文本进行处理,包括文本规范化、字音转换、分词等,然后从不同粒度中提取语音、持续时间和词性标签等语言特征。
②声学模型(例如,基于隐马尔可夫模型(HMM))使用成对的语言特征和参数(声学特征)进行训练,其中声学特征包括基频、频谱或倒谱等,并通过声码器分析从语音中提取。
③声码器根据预测的声学特征合成语音。

2.文本分析
这一部分在统计参数方面的用处极大,文本分析用于提取语言特征向量,并包含若干功能,如文本规范化、分词、词性(词性)标记、韵律预测(韵律预测。韵律信息,如语音的节奏、重音和语调,对应于音节持续时间、响度和音调的变化)和字音转换(数字,日期等),G2P(speech-sp iy ch)
在端到端的神经TTS中,由于基于神经的模型建模能力大,直接将字符或音素序列作为输入进行合成,从而大大简化了文本分析模块。在这种情况下,文本规范化仍然需要从字符输入中获取标准单词格式,而从标准单词格式中获取音素则需要进一步进行字形到音素的转换。尽管一些TTS模型声称完全端到端合成,直接从文本生成波形,但仍需要文本规范化来处理具有任何可能的非标准格式的原始文本,以供实际使用所以在工程中会有cleaner文件专门处理此项工作,在中文TTS合成中,还有专门的转拼音音素的操作和对数值型数据的读操作(10000和0.001怎么读),韵律预测以fastspeech2为代表,对持续时间(韵律)、重音和能量等因素预测学习,然后使用MFA对文本转音素进行处理,起到了很好的合成效果和非自回归的合成速度

3.声学模型
声学模型旨在于生成声学的特征信息,在没有专家信息的指导时,参数统计方法会根据语言特征去预测一些声学特征的相干系数,如mel广义系数、F0基频信号等,但是这种方式也会带来一些问题,例如如何更好的联系上下文信息,如何建模输出帧的相关性,如何解决平滑带来的细节缺失问题,这些都在深度学习网络模型中得到了较好的解决,从CNN-RNN到LSTM-convbank再到CBHG的模型整合,深度学习都使得对于解决问题的方法越来越高效和简单。
然后我们再来总结一下深度学习模型的优点:
1 传统声学模型要求语言和声学特征之间的对齐,而基于序列到序列的神经模型则通过注意隐式地学习对齐,或者联合预测持续时间,这是一种端到端且需要较少预处理的方法。
2 随着神经网络建模能力的增强,语言特征被简化为仅字符或音素序列,声学特征已从低维和压缩倒谱(如MGC)转变为高维mel谱图或更高维线性谱图。
这里也有一张声学模型总结性的表格
在这里插入图片描述
4.声码器模块
这一部分的了解在下基本为0,只晓得Griffin-Lim,waveglow和hifigan等常用的声码器而已,要说感悟的话,最好针对自己的数据集自己训练一个声码器模型,这个对于最后音质的提升还是蛮大的,至于声码器合成速度上,倒没有特别的关注。
这里也贴上论文的图供大家观看。
在这里插入图片描述
5.完全的端到端模型
实现完全端到端模型的过程通常包含以下升级:
1 简化文本分析模块和语言功能。在SPSS中,文本分析模块包含不同的功能,如文本规范化、短语/单词/音节切分、词性标注、韵律预测、字形-音素转换(包括多音消歧)。在端到端模型中,仅保留文本规范化和字形到音素转换来将字符转换为音素,或者通过直接将字符作为输入来删除整个文本分析模块。
2 简化声学特征,将SPSS中使用的MGC、BAP和F0等复杂声学特征简化为mel谱图。
3 将两个或三个模块替换为一个端到端模型
这样做的优点也十分明显,既可以减少特征开发和训练的难度,又可以联合优化端到端避免级联模型存在的错误传递。

这一部分可讲的真的不多,大多数模型在训练时都会把文本到mel谱作为起点终点,本来声码器的训练也是过于浩大的,所以直接从文本到波形的实现可能比较艰难,当前本人了解的也不过Fastspeech2s这一个,论文也贴出了合成模型的层级,现在绝大多数模型存在于第三级,也就是不舍弃声学模型部分+声码器衔接。
在这里插入图片描述
以上大概就是论文上半部分的内容,至于具体到某个模型的例子,我会放到下篇来举例叙述,同时加上一些我的一些拙见,那下篇见。

这篇关于语音合成综述——亚洲微软谭旭《A Survey on Neural Speech Synthesis》上篇的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/787850

相关文章

人工和AI大语言模型成本对比 ai语音模型

这里既有AI,又有生活大道理,无数渺小的思考填满了一生。 上一专题搭建了一套GMM-HMM系统,来识别连续0123456789的英文语音。 但若不是仅针对数字,而是所有普通词汇,可能达到十几万个词,解码过程将非常复杂,识别结果组合太多,识别结果不会理想。因此只有声学模型是完全不够的,需要引入语言模型来约束识别结果。让“今天天气很好”的概率高于“今天天汽很好”的概率,得到声学模型概率高,又符合表达

模型压缩综述

https://www.cnblogs.com/shixiangwan/p/9015010.html

AI赋能天气:微软研究院发布首个大规模大气基础模型Aurora

编者按:气候变化日益加剧,高温、洪水、干旱,频率和强度不断增加的全球极端天气给整个人类社会都带来了难以估计的影响。这给现有的天气预测模型提出了更高的要求——这些模型要更准确地预测极端天气变化,为政府、企业和公众提供更可靠的信息,以便做出及时的准备和响应。为了应对这一挑战,微软研究院开发了首个大规模大气基础模型 Aurora,其超高的预测准确率、效率及计算速度,实现了目前最先进天气预测系统性能的显著

关于文章“python+百度语音识别+星火大模型+讯飞语音合成的语音助手”报错的修改

前言 关于我的文章:python+百度语音识别+星火大模型+讯飞语音合成的语音助手,运行不起来的问题 文章地址: https://blog.csdn.net/Phillip_xian/article/details/138195725?spm=1001.2014.3001.5501 1.报错问题 如果运行中报错,且报错位置在Xufi_Voice.py文件中的pcm_2_wav,如下图所示

Retrieval-Augmented Generation for Large Language Models A Survey

Retrieval-Augmented Generation for Large Language Models: A Survey 文献综述 文章目录 Retrieval-Augmented Generation for Large Language Models: A Survey 文献综述 Abstract背景介绍 RAG概述原始RAG先进RAG预检索过程后检索过程 模块化RAGMo

Android插件化学习之路(一)之动态加载综述

前段时间,公司项目完成了插件化的开发,自己也因此学习了很多Android插件化的知识,于是想把这些内容记录下来,本次带来Android插件化的第一篇:动态加载综述 Android插件化学习之路(一)之动态加载综述 Android插件化学习之路(二)之ClassLoader完全解析 Android插件化学习之路(三)之调用外部.dex文件中的代码 Android插件化学习之路(四)之使用插件中的R

AIGC-Animate Anyone阿里的图像到视频 角色合成的框架-论文解读

Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation 论文:https://arxiv.org/pdf/2311.17117 网页:https://humanaigc.github.io/animate-anyone/ MOTIVATION 角色动画的

微软搁置水下数据中心项目——项目纳蒂克相比陆地服务器故障更少

“我的团队努力了,并且成功了,”CO+I负责人诺埃尔·沃尔什说。 微软已悄然终止了始于2013年的水下数据中心(UDC)项目“纳蒂克”。该公司向DatacenterDynamics确认了这一消息,微软云运营与创新部门负责人诺埃尔·沃尔什表示:“我不会在世界任何地方建造海底数据中心。”她随后补充道:“我的团队进行了这个项目,而且效果很好。我们学到了很多关于海平面以下操作的知识,包括振动对服务器的影

图像编辑技术的新篇章:基于扩散模型的综述

在人工智能的浪潮中,图像编辑技术正经历着前所未有的变革。随着数字媒体、广告、娱乐和科学研究等领域对高质量图像编辑需求的不断增长,传统的图像编辑方法已逐渐无法满足日益复杂的视觉内容创作需求。尤其是在AI生成内容(AIGC)的背景下,如何利用人工智能技术对图像进行高效、精准的编辑,已成为当前研究的热点问题。尽管基于学习算法的图像编辑技术取得了显著进展,但仍存在诸多挑战,例如模型的泛化能力、编辑的自然性

首次使用回声状态网络 (ESN) 和语音特征进行帕金森病 (PD) 预测

帕金森病(Parkinson's disease, PD)是一种使人衰弱的神经退行性疾病,它需要进行精确和早期的诊断,以便为患者提供有效的治疗和护理。这种疾病是由James Parkinson在1817年首次确定的,其特征是多巴胺生成神经元的退化。多巴胺的不足导致了一系列症状,包括静止性震颤、肌肉僵硬、运动迟缓(姿势不稳定)、以及其他重要特征,如睡眠障碍、心律失常、便秘和语音变化,这