chatTTS打破人机对话的壁垒 短视频、小说配音营销场景大杀器

本文主要是介绍chatTTS打破人机对话的壁垒 短视频、小说配音营销场景大杀器,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

过去我们让AI说话,它给出的总是不咸不淡的机器合成声音,毫无波澜的死板音调让人听得昏昏欲睡。但由于chatTTS的到来,一切都将会变得不一样。作为一款强大的对话式文本转语音模型,它完美解决了用户对于生动对话的需求。如此功能不可小觑,可以称得上在业界一骑绝尘。对于短视频内容创作,有声小说配音,数字营销推广以及日常办公,它都可以成为强有力的助手。此外,该项目还衍生出音色抽卡,长文本推理,角色扮演等功能。

0f9f7e86c6970eb05c458fe24c6ddd48.jpeg

项目简介

ChatTTS由2noise推出,是专门为对话场景设计的文本转语音模型,例如LLM助手对话任务。使用非常简单,只需输入文本和信息,就可以生成相应的语音文件。它同时支持英文和中文,两种语言的发声效果都非常良好,甚至你可以输入中英文混搭的语句,它也能切换自如,轻松驾驭。

ChatTTS的训练量也是十分惊人。最大的模型使用了10万小时以上的中英文数据进行训练。在HuggingFace中开源的版本为4万小时训练且未SFT的版本。

ChatTTS非常适合处理通常分配给大型语言模型LLM的对话框任务。当集成到各种应用程序和服务中时,它可以生成对话响应,并提供更自然、更流畅的交互体验。

4bd84944fb10cedc153ab5eea7eaafc5.jpeg

核心功能

1. ChatTTS文本转语音

ChatTTS能够生成自然流畅的语音,输入的文本里允许加入笑声 [laugh] 和停顿 [uv_break] 作为韵律标记,可操作性很强。有了这些停顿和语气词等副语言现象,它听起来就像是我们在日常生活中的自然交流。它的发声也是不拘一格,比如你提问四川当地有哪些美食,它给出的回答还会带有一点口音!

2b7755549f5d97e7e2ebd8553f3ab08f.jpeg

几个示例https://colab.research.google.com/github/Kedreamix/ChatTTS/blob/main/ChatTTS_infer.ipynb#scrollTo=_xrONBIj9oxo

如果让它朗读/陈述信息,可以听到音质相当不错,声音清晰饱满,背景噪音较少,语速适中,声调平稳,英文发音颇为地道。。。这简直是广播电台的播音员无疑了!当然,也存在发音词带有吞音之类的问题,不过还是瑕不掩瑜。

如果让它读故事,那听起来真是抑扬顿挫,它时而提升声调突出重点,时而放缓过渡,同时也能处理好断句。

总的来说,ChatTTS针对对话式任务进行了优化,实现了自然流畅的语音合成,同时支持多说话人。生成效果上,不论是语调还是语气的变化,都比较细腻,非常接近真人的说话方式,不会停留在单一的音调上显得生硬。整体上声音很连贯,不会有别扭的感觉。

2.细粒度控制--韵律调整:

该模型能够预测和控制细粒度的韵律特征,包括笑声、停顿和插入词等。前面我们有提到过韵律特征:停顿和笑声,实际上模型有许许多多种韵律的调整,不仅限于文本里常见的附加[uv_break]和[laugh](实际上笑声也有三种,[laugh_0]、[laugh_1]、[laugh_2]),还有[music]、[pure]、[oral_0]、[speed_3]、[Stts]、[Ptts]等,标记处上下文都会受到程度不一的影响,这样可以很好地做到控制情绪的表达而不显突兀。当然,目前运用参数自动地对文本的预处理还是不够精细的,可能还是需要一定的人工处理,不然将会更为理想。

言而总之,这个模型可以精确控制韵律元素包括笑声,停顿和语调等韵律元素。

项目实操

基础用法

import ChatTTS from IPython.display import Audio chat = ChatTTS.Chat() chat.load_models(compile=False) # Set to True for better performance texts = ["PUT YOUR TEXT HERE",] wavs = chat.infer(texts, ) torchaudio.save("output1.wav", torch.from_numpy(wavs[0]), 24000)

进阶用法

说话人生成的主要方法是先从高斯噪声中采样,然后得到一个固定长度的说话人向量,最后作为额外的信息,输入到网络。给出的项目音色本来是不能固定的,但我们可以通过固定随机种子,将音色固定,解决音色过于随机的问题

################################### # Sample a speaker from Gaussian. rand_spk = chat.sample_random_speaker() params_infer_code = { 'spk_emb': rand_spk, # add sampled speaker 'temperature': .3, # using custom temperature 'top_P': 0.7, # top P decode 'top_K': 20, # top K decode } ################################### # For sentence level manual control. # use oral_(0-9), laugh_(0-2), break_(0-7) # to generate special token in text to synthesize. params_refine_text = { 'prompt': '[oral_2][laugh_0][break_6]' } wav = chat.infer(texts, params_refine_text=params_refine_text, params_infer_code=params_infer_code) ################################### # For word level manual control. text = 'What is [uv_break]your favorite english food?[laugh][lbreak]' wav = chat.infer(text, skip_refine_text=True, params_refine_text=params_refine_text, params_infer_code=params_infer_code) torchaudio.save("output2.wav", torch.from_numpy(wavs[0]), 24000) 570164a4992c35333a57f7726db998bb.jpeg

如有兴趣可以点击以下链接了解更多细节:

https://github.com/2noise/ChatTTS/blob/main/README_CN.md

https://github.com/ultrasev/ChatTTS/blob/master/README.md

https://colab.research.google.com/github/Kedreamix/ChatTTS/blob/main/ChatTTS_infer.ipynb#scrollTo=_xrONBIj9oxo

高性价比GPU资源:https://www.ucloud.cn/site/active/gpu.html?ytag=gpu_wenzhang_tongyong_shemei

这篇关于chatTTS打破人机对话的壁垒 短视频、小说配音营销场景大杀器的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1030353

相关文章

流媒体平台/视频监控/安防视频汇聚EasyCVR播放暂停后视频画面黑屏是什么原因?

视频智能分析/视频监控/安防监控综合管理系统EasyCVR视频汇聚融合平台,是TSINGSEE青犀视频垂直深耕音视频流媒体技术、AI智能技术领域的杰出成果。该平台以其强大的视频处理、汇聚与融合能力,在构建全栈视频监控系统中展现出了独特的优势。视频监控管理系统EasyCVR平台内置了强大的视频解码、转码、压缩等技术,能够处理多种视频流格式,并以多种格式(RTMP、RTSP、HTTP-FLV、WebS

Hadoop企业开发案例调优场景

需求 (1)需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。 (2)需求分析: 1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster 平均每个节点运行10个 / 3台 ≈ 3个任务(4    3    3) HDFS参数调优 (1)修改:hadoop-env.sh export HDFS_NAMENOD

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

《x86汇编语言:从实模式到保护模式》视频来了

《x86汇编语言:从实模式到保护模式》视频来了 很多朋友留言,说我的专栏《x86汇编语言:从实模式到保护模式》写得很详细,还有的朋友希望我能写得更细,最好是覆盖全书的所有章节。 毕竟我不是作者,只有作者的解读才是最权威的。 当初我学习这本书的时候,只能靠自己摸索,网上搜不到什么好资源。 如果你正在学这本书或者汇编语言,那你有福气了。 本书作者李忠老师,以此书为蓝本,录制了全套视频。 试

PostgreSQL核心功能特性与使用领域及场景分析

PostgreSQL有什么优点? 开源和免费 PostgreSQL是一个开源的数据库管理系统,可以免费使用和修改。这降低了企业的成本,并为开发者提供了一个活跃的社区和丰富的资源。 高度兼容 PostgreSQL支持多种操作系统(如Linux、Windows、macOS等)和编程语言(如C、C++、Java、Python、Ruby等),并提供了多种接口(如JDBC、ODBC、ADO.NET等

SAM2POINT:以zero-shot且快速的方式将任何 3D 视频分割为视频

摘要 我们介绍 SAM2POINT,这是一种采用 Segment Anything Model 2 (SAM 2) 进行零样本和快速 3D 分割的初步探索。 SAM2POINT 将任何 3D 数据解释为一系列多向视频,并利用 SAM 2 进行 3D 空间分割,无需进一步训练或 2D-3D 投影。 我们的框架支持各种提示类型,包括 3D 点、框和掩模,并且可以泛化到不同的场景,例如 3D 对象、室

树莓派5_opencv笔记27:Opencv录制视频(无声音)

今日继续学习树莓派5 8G:(Raspberry Pi,简称RPi或RasPi)  本人所用树莓派5 装载的系统与版本如下:  版本可用命令 (lsb_release -a) 查询: Opencv 与 python 版本如下: 今天就水一篇文章,用树莓派摄像头,Opencv录制一段视频保存在指定目录... 文章提供测试代码讲解,整体代码贴出、测试效果图 目录 阶段一:录制一段

基于树梅派的视频监控机器人Verybot

最近这段时间做了一个基于树梅派 ( raspberry pi ) 的视频监控机器人平台 Verybot ,现在打算把这个机器人的一些图片、视频、设计思路进行公开,并且希望跟大家一起研究相关的各种问题,下面是两张机器人的照片:         图片1:                   图片2                    这个平台的基本组成是:

PC与android平板通过浏览器监控Verybot的视频

下面这个视频是PC与android平板通过浏览器监控Verybot的视频:           http://v.youku.com/v_show/id_XNjYzNzYyMTIw.html