ChatTTS改良版 - 高度逼真的人类情感文本生成语音工具（TTS）本地一键整合包下

本文主要是介绍ChatTTS改良版 - 高度逼真的人类情感文本生成语音工具（TTS）本地一键整合包下，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

先介绍下ChatTTS

和之前发布的 Fish Speech 类似，都是免费开源的文本生成语音的AI软件，但不同的是，ChatTTS测试下来，对于人类情感语调的模仿，应该是目前开源项目做的最好的，是一款高度接近人类情感、音色、语调的文本语音合成项目。不像其他的语音合成项目，出来的音调很生硬，一听就知道是合成的。ChatTTS的合成效果，高度模仿人类情感，不仔细听，根本分不清是真人还是合成。关键是开源免费。目前只支持中英两种语言。

本地一键整合包下载地址：ChatTTS改良版 - 高度逼真的人类情感文本生成语音工具（TTS）本地一键整合包

项目地址：https://github.com/2noise/ChatTTS/
今天分享这个项目的一键整合包，解压即用。显卡要求也不高，4G显存就可以用，但速度慢了些，做自媒体的朋友必备神器。

这次发布的改良版 WebUI 来自民间大佬，大佬GitHub主页 GitHub - craii/ChatTTS_WebUI: WebUI for ChatTTS
如上图，新增更多详细的调参设置，最大的亮点就是新增了 固定音色 保存功能，相比之前的版本，每次生成的音色都不固定，听起来有点不协调。这次的版本，可以手动保存固定的音色，方便同一个素材使用相同的音色。

具体使用方法：

输入文本和参数后，按照上图操作，输入一个音色名称，点保存。

保存音色后，需要重启服务，即关闭任务栏黑色启动窗口，重新运行一键启动即可。

重启进入页面后，就可以在音色下拉列表里找到上一次保存的音色，这样就可以统一音色了。

下面看下官方的介绍

ChatTTS是专门为对话场景设计的文本转语音模型，例如LLM助手对话任务。它支持英文和中文两种语言。最大的模型使用了10万小时以上的中英文数据进行训练。在HuggingFace中开源的版本为4万小时训练且未SFT的版本.

先说下ChatTTS的主要特点
对话式 TTS: ChatTTS针对对话式任务进行了优化，实现了自然流畅的语音合成，同时支持多说话人。
细粒度控制: 该模型能够预测和控制细粒度的韵律特征，包括笑声、停顿和插入词等。
更好的韵律: ChatTTS在韵律方面超越了大部分开源TTS模型。同时提供预训练模型，支持进一步的研究。

最后说说使用
使用很简单，双击一键启动，等待自动跳转到WebUI界面，输入一段需要转换的文字，选择男声或者女生，最后点合成即可。
可以在合成文字里加入情感控制词，比如常见的笑声，直接在需要加入笑声的文字后插入[laugh]即可。

软件使用常见问题
我要多少显存? Infer的速度是怎么样的?