ChatTTS增强版V2，批量导出srt，语速控制，情感控制，支持朗读数字，问题修复

本文主要是介绍ChatTTS增强版V2，批量导出srt，语速控制，情感控制，支持朗读数字，问题修复，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

ChatTTS增强版最新版本已经发布，本次更新我主要增加了多文本批量、SRT导出、语速控制、情感控制、停顿控制等新功能，并针对上一版本中存在的数字读音异常、随机uv_break等问题进行了修复。

视频版本

【ChatTTS增强版V2，批量导出srt，语速控制，情感控制，支持朗读数字，问题修复】 https://www.bilibili.com/video/BV17T421e76w/?share_source=copy_web&vd_source=09316244e4ff3a9793930d67cf748288

更新内容

批量txt

新增支持多个txt文本批量导入,会针对每个txt文本进行处理。

听取大家的建议，批量处理后的txt会按照文件名来保存。

导出路径为：output_audio/你的txt名/

每个文件夹内分别存放着合并后的音频、音频切片、增强后的音频切片。

导出的完整的音频路径为：output_audio/你的txt名/合并/

导出的音频切片路径为：output_audio/你的txt名/切片/

导出的增强音频切片路径为：output_audio/你的txt名/增强切片/

SRT导出

批量模式下支持导出srt文件。会针对每个txt文本合成的音频生成对应的srt文件。

srt会导出路径:output_audio/你的txt名/你的txt名.srt

srt文本内容

这里说下，srt某些情况下会有误差，需检查下时间戳。

数字转换

由于ChatTTS不能很好的去朗读数字，这里做了一个转换。

比如这句话:我有10块4090显卡，今天出门丢了1块，很难受，今天是2024年。

读出来就是:

(音频)

开启数字转换后：

(音频)

这里还是把4090显卡型号以及年份读错了。因为数字转换在特殊情况下还是不能很好的去识别，这里最好的办法就是加空格

修改后的文字:我有10块4 0 9 0显卡，今天出门丢了1块，很难受，今天是2 0 2 4年。

在你想要单独读的数字组合里添加空格隔开。再开启数字转换后的效果：

(音频)

语速调整

增加了语速调节。默认值为0。最高是10，建议调到5或者6，10的话会有奇怪的英文读音混进去。

口语化调整

这里对这个参数的理解就是口语化，或者是说话的自然程度。

比如还是刚才那句:我有10块4 0 9 0显卡，今天出门丢了1块，很难受，今天是2 0 2 4年。

其他参数相同，oral为0的效果：

(音频效果)

oral为5的效果：

(音频效果)

可以听到，在oral为5的情况下自动添加了：就、啊等语气或者连接词来让音频更加自然。

笑声调整

控制音频的笑声程度。

当然你也可以在文字中输入[laugh]来手动添加笑声。

生成的效果：

(音频效果)

停顿调整

停顿为0

(音频效果)

停顿为4

(音频效果)

这个参数也可以在文本中输入[uv_break]来手动添加停顿。

(音频效果)

问题修复

uv_break问题

首先说下上次最大的问题，好多朋友反馈说会读u_break的问题。这里跟大家说声抱歉，那是个我漏掉的bug。

这个版本我针对这个问题做了调整，大家可以试下。

如果还有这个问题可以将break调整为0，关闭提炼文本尝试下。

IP端口问题

V1版本的ip和端口号是固定的，有些朋友电脑上8080端口是禁用的，造成访问不了网页的问题，或者是开了代理进不去的问题。

这个版本默认ip是127.0.0.1，端口号是自动获取本机开放空闲的端口。

如果你想要自定义ip或端口号，可在整合包根目录下找到config.ini文件。

修改custom_server的值为True表示开启自定义ip、端口号。False为关闭自定义ip、端口号。

ip和端口修改为你想要设定的值即可。

实验性选项

这里是开发中的一个测试选项，还不完善。可自行测试音色固定程度，如果开启后生成的结果无效果，或异常，关掉即可。

⚠️已知的是开启后会导致N卡用户音频增强过程变得极慢！！！慎重开启

配置要求

以下是整合包运行所需配置

WIN

Windwos10/11操作系统
支持CPU/GPU

MAC

Apple Silicon M系列芯片、Intel 芯片
MacOS 10.13以上版本

云端版本

适用于机器配置低的朋友，云端镜像一键部署。

云端一键部署镜像

关于显存，最低4G显存(不开启音频增强的情况下)

Mac 由于cuda原因目前只支持cpu进行推理。

整合包获取

👇🏻👇🏻👇🏻下方下方下方👇🏻👇🏻👇🏻

关注公众号,发送【ChatTTSV2】关键字获取整合包。

如果发了关键词没回复你！记得看下复制的时候是不是把空格给粘贴进去了！

写在最后

还有很多朋友的建议，比如增加标点符号分割、克隆用户音色等，这些想法都很不错，我也会在后续的版本中进行更新。

最后非常感谢大家对这个项目的支持。如果您有更多的想法或建议，欢迎通过私信或在评论区留下你们的意见。

制作不易，如果本文对您有帮助，还请点个免费的赞或在看！感谢您的阅读！

这篇关于ChatTTS增强版V2，批量导出srt，语速控制，情感控制，支持朗读数字，问题修复的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

ChatTTS增强版V2，批量导出srt，语速控制，情感控制，支持朗读数字，问题修复

更新内容

批量txt

SRT导出

数字转换

语速调整

口语化调整

笑声调整

停顿调整

问题修复

uv_break问题

IP端口问题

实验性选项

配置要求

WIN

MAC

云端版本

整合包获取

写在最后

相关文章

SpringBoot整合mybatisPlus实现批量插入并获取ID详解

IntelliJ IDEA 中配置 Spring MVC 环境的详细步骤及问题解决

快速修复一个Panic的Linux内核的技巧

Spring 中的循环引用问题解决方法

Spring Boot中JSON数值溢出问题从报错到优雅解决办法

SpringBoot请求参数接收控制指南分享

关于MongoDB图片URL存储异常问题以及解决

SpringBoot项目中报错The field screenShot exceeds its maximum permitted size of 1048576 bytes.的问题及解决

解决Maven项目idea找不到本地仓库jar包问题以及使用mvn install:install-file

usb接口驱动异常问题常用解决方案