手把手教程 | 云端部署语音合成神器——ChatTTS

2024-06-20 16:12

本文主要是介绍手把手教程 | 云端部署语音合成神器——ChatTTS,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

图片

近期,ChatTTS 凭借其高度仿真的 AI 语音合成技术迅速走红!ChatTTS 是专为对话场景设计的文本转语音模型,例如 LLM 助手对话任务,支持中英文两种语言。其最大的模型在超过 10 万小时的中英文数据上进行训练,确保了高质量的语音输出。

从宣传视频中可以发现,合成语音自动添加了“嗯……”“然后”等语气词,以及适时的笑声,展现了丰富的韵律和情感,几乎无法分辨真假。

本文将手把手指导大家如何在趋动云平台部署这款开源的语音合成神器——ChatTTS,并进行实际测试,体验其强大的功能。让我们一起探索 ChatTTS 的魅力吧!

创建项目

创建项目ChatTTS(名字可自定义),选择合适的镜像ChatTTS同济子豪兄镜像和模型ChatTTS模型-同济子豪兄。在相应的位置根据关键词搜索公开即可。

图片

完成配置之后,点击我要上传代码,暂不启动

进入编辑,删除自带的Notebook,上传代码压缩包、解压压缩包,完成编辑。

代码压缩包可以在人工智能小技巧公众号后台回复【ChatTTS】获得。

图片

删除

图片

上传

图片

解压

进入开发环境

启动并进入开发环境,我们可以在 Jupyterlab 进行数据和文件的查看、代码的编辑和运行。

图片

使用趋动云平台,直接运行C代码。C代码中有四个命令,我们只需要Shift+回车,运行import osos.chdir('ChatTTS')!python webui.py --local_path=/gemini/pretrain这三个命令即可启动 WebUI 在线网页。

这里有两处代码的修改,如下:

将第107行加上compile=False参数,让模型更快chat.load_models('local', local_path=args.local_path, compile=False)将第109行加上share=True参数,生成公网链接demo.launch(server_name=args.server_name, server_port=args.server_port, inbrowser=True, share=True)

运行完成后,我们获得了一个公网链接(允许所有联网用户查看)和一个端口为8080的本地链接。通过对端口进行设置,本地链接也可以转换为外部访问链接,同样可以达到所有人都能查看的效果。

图片

图片

图片

效果展示

在浏览器中访问上一步操作得到的两个公网链接的任意一个,根据页面提示,输入你想要合成的语音内容,音色、音速等,生成并进行试听。

图片

通过点击骰子图标可以对音色和语速进行随机切换,也可以在https://github.com/kangyiwen/TTSlist先试听音色,选择想要的音色条直接输入再合成。

欢迎大家到趋动云动手部署一个自己的语音合成项目!欣赏过后,记得及时关闭开发环境,以免继续产生费用!

这篇关于手把手教程 | 云端部署语音合成神器——ChatTTS的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1078619

相关文章

闲置电脑也能活出第二春?鲁大师AiNAS让你动动手指就能轻松部署

对于大多数人而言,在这个“数据爆炸”的时代或多或少都遇到过存储告急的情况,这使得“存储焦虑”不再是个别现象,而将会是随着软件的不断臃肿而越来越普遍的情况。从不少手机厂商都开始将存储上限提升至1TB可以见得,我们似乎正处在互联网信息飞速增长的阶段,对于存储的需求也将会不断扩大。对于苹果用户而言,这一问题愈发严峻,毕竟512GB和1TB版本的iPhone可不是人人都消费得起的,因此成熟的外置存储方案开

Spring Security 从入门到进阶系列教程

Spring Security 入门系列 《保护 Web 应用的安全》 《Spring-Security-入门(一):登录与退出》 《Spring-Security-入门(二):基于数据库验证》 《Spring-Security-入门(三):密码加密》 《Spring-Security-入门(四):自定义-Filter》 《Spring-Security-入门(五):在 Sprin

Makefile简明使用教程

文章目录 规则makefile文件的基本语法:加在命令前的特殊符号:.PHONY伪目标: Makefilev1 直观写法v2 加上中间过程v3 伪目标v4 变量 make 选项-f-n-C Make 是一种流行的构建工具,常用于将源代码转换成可执行文件或者其他形式的输出文件(如库文件、文档等)。Make 可以自动化地执行编译、链接等一系列操作。 规则 makefile文件

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

让树莓派智能语音助手实现定时提醒功能

最初的时候是想直接在rasa 的chatbot上实现,因为rasa本身是带有remindschedule模块的。不过经过一番折腾后,忽然发现,chatbot上实现的定时,语音助手不一定会有响应。因为,我目前语音助手的代码设置了长时间无应答会结束对话,这样一来,chatbot定时提醒的触发就不会被语音助手获悉。那怎么让语音助手也具有定时提醒功能呢? 我最后选择的方法是用threading.Time

SWAP作物生长模型安装教程、数据制备、敏感性分析、气候变化影响、R模型敏感性分析与贝叶斯优化、Fortran源代码分析、气候数据降尺度与变化影响分析

查看原文>>>全流程SWAP农业模型数据制备、敏感性分析及气候变化影响实践技术应用 SWAP模型是由荷兰瓦赫宁根大学开发的先进农作物模型,它综合考虑了土壤-水分-大气以及植被间的相互作用;是一种描述作物生长过程的一种机理性作物生长模型。它不但运用Richard方程,使其能够精确的模拟土壤中水分的运动,而且耦合了WOFOST作物模型使作物的生长描述更为科学。 本文让更多的科研人员和农业工作者

AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出

AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出 在数字化时代,文本到语音(Text-to-Speech, TTS)技术已成为人机交互的关键桥梁,无论是为视障人士提供辅助阅读,还是为智能助手注入声音的灵魂,TTS 技术都扮演着至关重要的角色。从最初的拼接式方法到参数化技术,再到现今的深度学习解决方案,TTS 技术经历了一段长足的进步。这篇文章将带您穿越时

沁恒CH32在MounRiver Studio上环境配置以及使用详细教程

目录 1.  RISC-V简介 2.  CPU架构现状 3.  MounRiver Studio软件下载 4.  MounRiver Studio软件安装 5.  MounRiver Studio软件介绍 6.  创建工程 7.  编译代码 1.  RISC-V简介         RISC就是精简指令集计算机(Reduced Instruction SetCom

在 Windows 上部署 gitblit

在 Windows 上部署 gitblit 在 Windows 上部署 gitblit 缘起gitblit 是什么安装JDK部署 gitblit 下载 gitblit 并解压配置登录注册为 windows 服务 修改 installService.cmd 文件运行 installService.cmd运行 gitblitw.exe查看 services.msc 缘起

前端技术(七)——less 教程

一、less简介 1. less是什么? less是一种动态样式语言,属于css预处理器的范畴,它扩展了CSS语言,增加了变量、Mixin、函数等特性,使CSS 更易维护和扩展LESS 既可以在 客户端 上运行 ,也可以借助Node.js在服务端运行。 less的中文官网:https://lesscss.cn/ 2. less编译工具 koala 官网 http://koala-app.