Wav2Lip:准确生成一个唇语识别视频

2023-12-22 18:44

本文主要是介绍Wav2Lip:准确生成一个唇语识别视频,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

最近小编在GitHub里面闲逛发现一个3年前的项目,里面的任务是AI生成唇语的,根据你输入的语音修改你输入的视频,使得你的视频能对的上你输入的语音。因为版本一直没有被维护,有一些python库太久无法安装,有一些还有冲突,所以小编帮忙改代码更新了版本,目前把新版本放到GitHub上面xiaoou2/wav2lip (github.com)

如果想训练的小伙伴可以下载数据集



唇读句子 2 (LRS2) 数据集 (ox.ac.uk)

lrs2数据集main_数据集-飞桨AI Studio星河社区 (baidu.com)

获取方式:

1.根据网站https://www.bbc.co.uk/rd/projects/lip-reading-datasets提示,获取word版数据集申请文件,在文件最后签署使用协议,使用邮箱发送到该网站指定邮箱,等待一两天即可收到带有用户名和密码的邮件。

2.点击上图中“Download”链接,使用用户名密码登陆,即可下载数据集。共计50GB左右,下载所需时间较长。

要想更多的数据集,可以参考史上最详细唇语识别数据集综述-CSDN博客 

小编没有进行尝试重新训练,因为机器太烂了qaq,但是下载原GitHub下的训练好的模型和视频来玩了一下,对于英文的唇语生成准确率还是很高的(中文没尝试过,不过看介绍视频觉得准确率也不差) 。原GitHub好像没有公开模型的结构和论文,所以这里主打一个拿来主义

1.使用预训练模型生成视频

下载好代码后,通过pip install -r requirements.txt下载对应的库(可能还会缺一点,通过pip install 安装应该可以解决,因为小编的环境不是全新的conda环境,里面有一些以前下载过的包)

主要准备4样东西,在里面找到链接下载预训练模型,找到一段语音和视频,时长要切割成一样,而且里面规定了视频要一直看到人脸.因为使用的是人脸检测算法,还需要在GitHub提供的链接下载一个训练好的人脸检测模型,改名s3fd.pth,放在Wav2Lip\face_detection\detection\sfd路径下。

做完一切功夫后,在终端执行这个命令,主要是输入这3样东西的相对路径

python inference.py --checkpoint_path <ckpt> --face <video.mp4> --audio <an-audio-source> 

注意:<>是多余的,删去,主要是为了标注输入相对路径

2.训练自己的模型 

训练文件需要有jpg图片和wav视频,训练数据从小编给的公开数据下载吧(data下有mian(自己划分train、val、test)和pretrain(模型预训练,label较为复杂)两个文件夹)

通过阅读要求发现好像要训练两个,先训练一个专业的口型同步鉴别器,如何再训练Wav2Lip模型。

训练鉴别器

python color_syncnet_train.py --data_root lrs2_preprocessed/ --checkpoint_dir <folder_to_save_checkpoints>

训练Wave2Lip模型

python wav2lip_train.py --data_root lrs2_preprocessed/ --checkpoint_dir <folder_to_save_checkpoints> --syncnet_checkpoint_path <path_to_expert_disc_checkpoint>

小编也没有训练过,所以可能训练部分代码中会有库的版本冲突,如果有小伙伴发生报错可以跟我说一下我也好纠错重发,谢谢各位批评指正!!!

希望这篇博客能帮助到你!!!!!

这篇关于Wav2Lip:准确生成一个唇语识别视频的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/525055

相关文章

Python+FFmpeg实现视频自动化处理的完整指南

《Python+FFmpeg实现视频自动化处理的完整指南》本文总结了一套在Python中使用subprocess.run调用FFmpeg进行视频自动化处理的解决方案,涵盖了跨平台硬件加速、中间素材处理... 目录一、 跨平台硬件加速:统一接口设计1. 核心映射逻辑2. python 实现代码二、 中间素材处

Java使用Spire.Barcode for Java实现条形码生成与识别

《Java使用Spire.BarcodeforJava实现条形码生成与识别》在现代商业和技术领域,条形码无处不在,本教程将引导您深入了解如何在您的Java项目中利用Spire.Barcodefor... 目录1. Spire.Barcode for Java 简介与环境配置2. 使用 Spire.Barco

SpringBoot集成iText快速生成PDF教程

《SpringBoot集成iText快速生成PDF教程》本文介绍了如何在SpringBoot项目中集成iText9.4.0生成PDF文档,包括新特性的介绍、环境准备、Service层实现、Contro... 目录SpringBoot集成iText 9.4.0生成PDF一、iText 9新特性与架构变革二、环

idea-java序列化serialversionUID自动生成方式

《idea-java序列化serialversionUID自动生成方式》Java的Serializable接口用于实现对象的序列化和反序列化,通过将对象转换为字节流来存储或传输,实现Serializa... 目录简介实现序列化serialVersionUID配置使用总结简介Java.io.Seripyth

Java中的随机数生成案例从范围字符串到动态区间应用

《Java中的随机数生成案例从范围字符串到动态区间应用》本文介绍了在Java中生成随机数的多种方法,并通过两个案例解析如何根据业务需求生成特定范围的随机数,本文通过两个实际案例详细介绍如何在java中... 目录Java中的随机数生成:从范围字符串到动态区间应用引言目录1. Java中的随机数生成基础基本随

C#自动化生成PowerPoint(PPT)演示文稿

《C#自动化生成PowerPoint(PPT)演示文稿》在当今快节奏的商业环境中,演示文稿是信息传递和沟通的关键工具,下面我们就深入探讨如何利用C#和Spire.Presentationfor.NET... 目录环境准备与Spire.Presentation安装核心操作:添加与编辑幻灯片元素添加幻灯片文本操

Python实现Word文档自动化的操作大全(批量生成、模板填充与内容修改)

《Python实现Word文档自动化的操作大全(批量生成、模板填充与内容修改)》在职场中,Word文档是公认的好伙伴,但你有没有被它折磨过?批量生成合同、制作报告以及发放证书/通知等等,这些重复、低效... 目录重复性文档制作,手动填充模板,效率低下还易错1.python-docx入门:Word文档的“瑞士

使用python生成固定格式序号的方法详解

《使用python生成固定格式序号的方法详解》这篇文章主要为大家详细介绍了如何使用python生成固定格式序号,文中的示例代码讲解详细,具有一定的借鉴价值,有需要的小伙伴可以参考一下... 目录生成结果验证完整生成代码扩展说明1. 保存到文本文件2. 转换为jsON格式3. 处理特殊序号格式(如带圈数字)4

Java使用Swing生成一个最大公约数计算器

《Java使用Swing生成一个最大公约数计算器》这篇文章主要为大家详细介绍了Java使用Swing生成一个最大公约数计算器的相关知识,文中的示例代码讲解详细,感兴趣的小伙伴可以了解一下... 目录第一步:利用欧几里得算法计算最大公约数欧几里得算法的证明情形 1:b=0情形 2:b>0完成相关代码第二步:加

Vue3视频播放组件 vue3-video-play使用方式

《Vue3视频播放组件vue3-video-play使用方式》vue3-video-play是Vue3的视频播放组件,基于原生video标签开发,支持MP4和HLS流,提供全局/局部引入方式,可监听... 目录一、安装二、全局引入三、局部引入四、基本使用五、事件监听六、播放 HLS 流七、更多功能总结在 v