ChatTTS增强版V3【已开源】,长文本修复,中英混读,导入音色,批量SRT、TXT

本文主要是介绍ChatTTS增强版V3【已开源】,长文本修复,中英混读,导入音色,批量SRT、TXT,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

ChatTTS增强版V3来啦!本次更新增加支持导入SRT、导入音色等功能。结合上次大家反馈的问题,修复了长文本、中英混读等问题。

项目已开源(https://github.com/CCmahua/ChatTTS-Enhanced)

项目介绍

V3

ChatTTS增强版V3,长文本修复,中英混读,导入音色,批量SRT、TXT,代码开源_哔哩哔哩_bilibili

V2

ChatTTS增强版V2,批量导出srt,语速控制,情感控制,支持朗读数字,问题修复_哔哩哔哩_bilibili

V1

ChatTTS增强版整合包,增强音质、批量处理、固定音色、支持长文本(WIN、MAC)_哔哩哔哩_bilibili

更新内容

批量SRT、TXT

批量功能新增支持多个TXT文本或SRT批量导入,会针对每文件进行处理。并支持导出对应SRT。

TXT文本内容格式不用严格按照换行的来。

你可以按照之前换行的格式来。

也可以直接所有内容文本粘进去,会自动根据标点符号进行切分。

长文本

不少朋友反馈上个版本长文本的问题很多,这个版本进行调整。文本内容会自动按照标点符号进行断句。

(音频效果)

英文效果

(音频效果)

中英混读

(效果)

文本选项

删除了之前数字转换选项、合成整个音频的选项。

数字转换已经内置进去,无需手动勾选。合成整个音频默认自动合成。

导出的完整的音频路径为:output_audio/你的txt名/合并/

导出的音频切片路径为:output_audio/你的txt名/切片/

导出的增强音频切片路径为:output_audio/你的txt名/增强切片/

音色选项

新增上传音色功能。

支持导入ChatTTS_Speaker项目的.pt音色文件。

项目地址:

https://modelscope.cn/studios/ttwwwaa/ChatTTS_Speaker

在该项目上试听音色,下载.pt文件

音色这里把.pt文件上传。

点击生成即可。

配置管理

之前的配置文件格式是.json。这个版本统一保存为.pt格式。

📢注意

当你使用ChatTTS_Speaker的音色pt文件时,也可以保存配置文件。

下次使用时,只需要选择配置文件即可,无需再上传音色。配置文件包含音色文件信息。

配置要求

以下是整合包运行所需配置

WIN

  • Windwos10/11操作系统
  • 支持CPU/GPU

MAC

  • Apple Silicon M系列芯片、Intel 芯片
  • MacOS 10.13以上版本

云端版本

适用于机器配置低的朋友,云端镜像一键部署。

https://www.xiangongyun.com/image/detail/f086c8d6-a802-4a94-b3b5-f4e2f0e2d631?r=2UKFZQ

云端部署教程

关于显存,最低4G显存(不开启音频增强的情况下)

关于MAC显卡:官方更新了MPS相关代码,但我测下来还有些问题,后面再增加支持,所以现在还是先用CPU。

整合包获取

👇🏻👇🏻👇🏻下方下方下方👇🏻👇🏻👇🏻

关注公众号,发送【ChatTTSV3】关键字获取整合包。

c9d252d6c546419798a870adf532fec3.png

如果发了关键词没回复你!记得看下复制的时候是不是把空格给粘贴进去了!

写在最后

最近有点忙,拖了2周左右。看到后台有很多朋友的想法和建议,很不错,但是精力有限,实在不能保证把大家的想法都更上去,后面抽时间慢慢更。

把项目代码开源了,希望对大家有帮助,有能力的也可以自行修改。

本项目开源地址:https://github.com/CCmahua/ChatTTS-Enhanced

最后感谢以下项目:

ChatTTS:https://github.com/2noise/ChatTTS

Resemble Enhance:https://github.com/resemble-ai/resemble-enhance

ChatTTS_colab:https://github.com/6drf21e/ChatTTS_colab

PaddleSpeech:https://github.com/PaddlePaddle/PaddleSpeech

ChatTTS_Speaker:https://github.com/6drf21e/ChatTTS_Speaker

WeTextProcessing:https://github.com/wenet-e2e/WeTextProcessing

制作不易,如果本文对您有帮助,还请点个免费的赞或在看!感谢您的阅读!

这篇关于ChatTTS增强版V3【已开源】,长文本修复,中英混读,导入音色,批量SRT、TXT的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1086028

相关文章

python: 多模块(.py)中全局变量的导入

文章目录 global关键字可变类型和不可变类型数据的内存地址单模块(单个py文件)的全局变量示例总结 多模块(多个py文件)的全局变量from x import x导入全局变量示例 import x导入全局变量示例 总结 global关键字 global 的作用范围是模块(.py)级别: 当你在一个模块(文件)中使用 global 声明变量时,这个变量只在该模块的全局命名空

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

金融业开源技术 术语

金融业开源技术  术语 1  范围 本文件界定了金融业开源技术的常用术语。 本文件适用于金融业中涉及开源技术的相关标准及规范性文件制定和信息沟通等活动。

安全管理体系化的智慧油站开源了。

AI视频监控平台简介 AI视频监控平台是一款功能强大且简单易用的实时算法视频监控系统。它的愿景是最底层打通各大芯片厂商相互间的壁垒,省去繁琐重复的适配流程,实现芯片、算法、应用的全流程组合,从而大大减少企业级应用约95%的开发成本。用户只需在界面上进行简单的操作,就可以实现全视频的接入及布控。摄像头管理模块用于多种终端设备、智能设备的接入及管理。平台支持包括摄像头等终端感知设备接入,为整个平台提

K8S(Kubernetes)开源的容器编排平台安装步骤详解

K8S(Kubernetes)是一个开源的容器编排平台,用于自动化部署、扩展和管理容器化应用程序。以下是K8S容器编排平台的安装步骤、使用方式及特点的概述: 安装步骤: 安装Docker:K8S需要基于Docker来运行容器化应用程序。首先要在所有节点上安装Docker引擎。 安装Kubernetes Master:在集群中选择一台主机作为Master节点,安装K8S的控制平面组件,如AP

基于51单片机的自动转向修复系统的设计与实现

文章目录 前言资料获取设计介绍功能介绍设计清单具体实现截图参考文献设计获取 前言 💗博主介绍:✌全网粉丝10W+,CSDN特邀作者、博客专家、CSDN新星计划导师,一名热衷于单片机技术探索与分享的博主、专注于 精通51/STM32/MSP430/AVR等单片机设计 主要对象是咱们电子相关专业的大学生,希望您们都共创辉煌!✌💗 👇🏻 精彩专栏 推荐订阅👇🏻 单片机

MiniGPT-3D, 首个高效的3D点云大语言模型,仅需一张RTX3090显卡,训练一天时间,已开源

项目主页:https://tangyuan96.github.io/minigpt_3d_project_page/ 代码:https://github.com/TangYuan96/MiniGPT-3D 论文:https://arxiv.org/pdf/2405.01413 MiniGPT-3D在多个任务上取得了SoTA,被ACM MM2024接收,只拥有47.8M的可训练参数,在一张RTX

HomeBank:开源免费的个人财务管理软件

在个人财务管理领域,找到一个既免费又开源的解决方案并非易事。HomeBank 正是这样一个项目,它不仅提供了强大的功能,还拥有一个活跃的社区,不断推动其发展和完善。 开源免费:HomeBank 是一个完全开源的项目,用户可以自由地使用、修改和分发。用户友好的界面:提供直观的图形用户界面,使得非技术用户也能轻松上手。数据导入支持:支持从 Quicken、Microsoft Money

开源分布式数据库中间件

转自:https://www.csdn.net/article/2015-07-16/2825228 MyCat:开源分布式数据库中间件 为什么需要MyCat? 虽然云计算时代,传统数据库存在着先天性的弊端,但是NoSQL数据库又无法将其替代。如果传统数据易于扩展,可切分,就可以避免单机(单库)的性能缺陷。 MyCat的目标就是:低成本地将现有的单机数据库和应用平滑迁移到“云”端

【经验交流】修复系统事件查看器启动不能时出现的4201错误

方法1,取得『%SystemRoot%\LogFiles』文件夹和『%SystemRoot%\System32\wbem』文件夹的权限(包括这两个文件夹的所有子文件夹的权限),简单点说,就是使你当前的帐户拥有这两个文件夹以及它们的子文件夹的绝对控制权限。这是最简单的方法,不少老外说,这样一弄,倒是解决了问题。不过对我的系统,没用; 方法2,以不带网络的安全模式启动,运行命令行,输入“ne