Speech | 语音中的风格迁移论文及总结[20231023更新版]

2023-10-24 13:53

本文主要是介绍Speech | 语音中的风格迁移论文及总结[20231023更新版],希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

2018_Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis

1.样式标记:端到端语音合成中的无监督样式建模、控制和传输

paper:Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis (arxiv.org)

code:jinhan/tacotron2-gst: Tacotron2 with Global Style Tokens (github.com)

摘要

在这项工作中,我们提出了“全局风格迁移”(GST),这是一个在Tacotron(最先进的端到端语音合成系统)中联合训练的嵌入库。嵌入在没有明确标签的情况下进行训练,但学会了对大范围的声学表现力进行建模。商品及服务税会带来一系列丰富的重要结果。它们生成的软可解释“标签”可用于以新颖的方式控制合成,例如改变速度和说话风格 - 独立于文本内容。它们还可用于风格转换,在整个长格式文本语料库中复制单个音频剪辑的说话风格。当对嘈杂的、未标记的发现数据进行训练时,GST 学会分解噪声和说话人身份,为高度可扩展但强大的语音合成提供了一条途径。

GST model包含了一个 reference encoder, style attention, style embedding, and sequence-to-sequence (Tacotron) model.

在训练时

Skerry-Ryan等人提出的参考编码器能将可变长度音频信号的前音压缩成固定长度的向量,我们称之为参考嵌入。在训练过程中

- 参考嵌入被传递到风格标记层,将其作为注意力模块的查询向量。在这里,注意力不是用来学习对齐。相反,它学习的是之间的相似性度量。随机初始化嵌入库中的每个标记之间的相似度量。这组嵌入库,我们也称之为全局样式标记、GST 或标记嵌入,在所有训练序列中共享。
- 注意力模块会输出一组组合权重,它代表了每种风格标记对编码参考嵌入的贡献。加权之和,我们称之为风格嵌入、在每个时间步传递给文本编码器进行调节。
- 风格标记层与模型的其他部分共同训练,仅由重建驱动。
模型的其他部分共同训练,只受来自 Tacotron 解码器的重构损失的驱动。因此,GST 不需要任何
明确的风格或韵律标签。

推理时

GST 架构旨在实现强大而灵活的在推理模式下进行控制。

在这种模式下,信息可以以两种方式之一流过模型:
1. 我们可以直接将文本编码器设定为某些标记的条件,如图 1 中推理模式图的右侧所示("以某些标记为条件")。这样就可以在没有参考信号的情况下进行样式控制和操作。
2. 我们可以输入不同的音频信号(其转录本不需要与要合成的文本相匹配)来实现风格转移。
图 1 中推理模式图的左侧描述了这一点(以音频信号为条件")。

2018_Text-Predicted Global Style Token (TP-GST):PREDICTING EXPRESSIVE SPEAKING STYLE FROM TEXT IN END-TO-END SPEECH SYNTHESIS

2.从端到端语音合成中的文本预测富有表现力的说话风格

paper:1808.01410.pdf (arxiv.org)

 摘要

全局样式令牌 (GST) 是最近提出的一种学习高维数据的潜在解开表示的方法。GST可以在Tacotron中使用,Tacotron是一种最先进的端到端文本到语音合成系统,以发现说话风格变化的表现因素。在这项工作中,我们介绍了文本预测全局风格令牌(TP-GST)架构,该架构将GST组合权重或风格嵌入视为Tacotron中的“虚拟”说话风格标签。TP-GST仅从文本中学习预测文体渲染,在训练期间既不需要明确的标签,也不需要辅助输入进行推理。我们表明,当在表达性语音数据集上进行训练时,我们的系统会生成的音频比两个最先进的基线模型具有更多的音高和能量变化。我们进一步证明,TP-GST可以在去除背景噪声的情况下合成语音,并在人类评估的听众偏好有声读物任务上以积极的结果证实这些分析。最后,我们证明了多说话人TP-GST模型成功地分解了说话人的身份和说话风格。我们提供了一个网站,其中包含每个发现的音频样本。

2022_Disentangling style and speaker attributes for TTS style transfer

3.语音合成中基于风格和说话人成分解耦的风格迁移

[2201.09472] Disentangling Style and Speaker Attributes for TTS Style Transfer (arxiv.org)

 摘要

端到端神经 TTS 在语音风格转换方面表现出改进的性能。但是,改进仍然受到目标风格和说话人的可用训练数据的限制。此外,当经过训练的 TTS 尝试将语音从具有未知任意风格的新说话人转移到目标风格时,会观察到性能下降。在本文中,我们提出了一种在不相交的多风格数据集上进行可见和看不见的风格迁移训练的新方法,即记录不同风格的数据集,一个说话者在多个话语中记录一个单独的风格。首先引入了逆自回归流(IAF)技术,以改进学习表达风格表示的变分推理。然后开发一个说话人编码器网络来学习判别性说话人嵌入,该网络与其他神经TTS模块联合训练。所提出的看得见和看不见的风格迁移方法经过了六个专门设计的目标的有效训练:重建损失、对抗性损失、风格失真损失、周期一致性损失、风格分类损失和说话人分类损失。实验客观和主观地证明了所提出的方法对看得见和看不见的风格迁移任务的有效性。我们的方法的性能优于现有技术的其他四个参考系统,并且比该方法更强大。

参考文献

【1】论文推介:语音合成中基于风格和说话人成分解耦的风格迁移 - 知乎 (zhihu.com)

References

Y. Wang, D. Stanton, Y. Zhang, R. Skerry-Ryan, E. Battenberg, J. Shor, Y. Xiao, F. Ren, Y. Jia, and R. A. Saurous, “Style tokens: Unsupervised style modeling, control and transfer in end-to-end speech synthesis,” International Conference on Machine Learning, 2018. [Online]. Available: https://arxiv.org/abs/1803.09017

H.-S. Choi, J. Lee, W. Kim, J. Lee, H. Heo, and K. Lee, “Neural analysis and synthesis: Reconstructing speech from self-supervised representations,” Advances in Neural Information Processing Systems, vol. 34, pp. 16 251–16 265, 2021.

[2] Y. Ren et al., “Fastspeech 2: Fast and high-quality end-to-end text to speech,” in Proc. Int. Conf. Learn. Representations, 2020.

[3] Y. Ren, Y. Ruan, X. Tan, T. Qin, S. Zhao, Z. Zhao, and T.-Y. Liu, “Fast-speech: Fast, robust and controllable text to speech,” The International Conference on Neural Information Processing Systems (NeurIPS), pp. 3165–3174, 2019.

[4] Y. Wang, D. Stanton, Y. Zhang, R.-S. Ryan, E. Battenberg, J. Shor, Y. Xiao, Y. Jia, F. Ren, and R. A. Saurous, “Style tokens: Unsupervised style modeling, control and transfer in end-to-end speech synthesis,” in the International Conference on Machine Learning (ICML). PMLR, 2018, pp. 5180–5189.

[5] K. Akuzawa, Y. Iwasawa, and Y. Matsuo, “Expressive Speech Synthesis via Modeling Expressions with Variational Autoencoder,” in The Annual Conference of the International Speech Communication Association (Interspeech), 2018, pp. 3067–3071.

[6] S. Pan and L. He, “Cross-Speaker Style Transfer with Prosody Bottleneck in Neural Speech Synthesis,” in The Annual Conference of the International Speech Communication Association (Interspeech), 2021, pp. 4678–4682.

[7] Y. Wang, R. Skerry-Ryan, D. Stanton, Y. Wu, R. J. Weiss, N. Jaitly, Z. Yang, Y. Xiao, Z. Chen, S. Bengio et al., “Tacotron: Towards end-to-end speech synthesis,” in The Annual Conference of the International Speech Communication Association (Interspeech), 2017, pp. 4006–4010.

[8] R. Liu, B. Sisman, G. Gao, and H. Li, “Expressive tts training with frame and style reconstruction loss,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 29, pp. 1806–1818, 2021.

这篇关于Speech | 语音中的风格迁移论文及总结[20231023更新版]的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/275626

相关文章

Android数据库Room的实际使用过程总结

《Android数据库Room的实际使用过程总结》这篇文章主要给大家介绍了关于Android数据库Room的实际使用过程,详细介绍了如何创建实体类、数据访问对象(DAO)和数据库抽象类,需要的朋友可以... 目录前言一、Room的基本使用1.项目配置2.创建实体类(Entity)3.创建数据访问对象(DAO

Java向kettle8.0传递参数的方式总结

《Java向kettle8.0传递参数的方式总结》介绍了如何在Kettle中传递参数到转换和作业中,包括设置全局properties、使用TransMeta和JobMeta的parameterValu... 目录1.传递参数到转换中2.传递参数到作业中总结1.传递参数到转换中1.1. 通过设置Trans的

C# Task Cancellation使用总结

《C#TaskCancellation使用总结》本文主要介绍了在使用CancellationTokenSource取消任务时的行为,以及如何使用Task的ContinueWith方法来处理任务的延... 目录C# Task Cancellation总结1、调用cancellationTokenSource.

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

让树莓派智能语音助手实现定时提醒功能

最初的时候是想直接在rasa 的chatbot上实现,因为rasa本身是带有remindschedule模块的。不过经过一番折腾后,忽然发现,chatbot上实现的定时,语音助手不一定会有响应。因为,我目前语音助手的代码设置了长时间无应答会结束对话,这样一来,chatbot定时提醒的触发就不会被语音助手获悉。那怎么让语音助手也具有定时提醒功能呢? 我最后选择的方法是用threading.Time

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

git使用的说明总结

Git使用说明 下载安装(下载地址) macOS: Git - Downloading macOS Windows: Git - Downloading Windows Linux/Unix: Git (git-scm.com) 创建新仓库 本地创建新仓库:创建新文件夹,进入文件夹目录,执行指令 git init ,用以创建新的git 克隆仓库 执行指令用以创建一个本地仓库的

二分最大匹配总结

HDU 2444  黑白染色 ,二分图判定 const int maxn = 208 ;vector<int> g[maxn] ;int n ;bool vis[maxn] ;int match[maxn] ;;int color[maxn] ;int setcolor(int u , int c){color[u] = c ;for(vector<int>::iter