2024-09-01 - 通用人工智能技术 - AI 数字人直播 - 合成篇

2024-09-01 - 通用人工智能技术 - AI 数字人直播 - 合成篇 - 流雨声

本文主要是介绍2024-09-01 - 通用人工智能技术 - AI 数字人直播 - 合成篇 - 流雨声，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

摘要

2024-09-01 周日杭州风和日丽

小记: 这周以政府采购评审专家的身份参加了采购评审，前几天摔伤的地方也逐渐愈合了，不过现在的我多少还是有点叛逆的，天天洗澡，等伤好了一定要去泡温泉。

应用实践

1 项目获取

git clone https://github.com/ai-liuys/DH_live.git

2 安装依赖

# windows 研发测试，需要安装 ffmpeg 并配置环境变量
https://ffmpeg.org/download.html

3 创建运行环境

# AI 环境，默认要求 python 3.10 版本以上
conda create --name win_ai python=3.11 -y 
# 环境激活 
conda  activate win_ai
# 安装依赖
pip install --upgrade pip
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
# 退出环境
conda deactivate # 确认 nvidia 版本
nvidia-smi 
# 安装 pytorch : https://pytorch.org/get-started/previous-versions/
conda install pytorch==2.2.0 torchvision==0.17.0 torchaudio==2.2.0 pytorch-cuda=12.1 -c pytorch -c nvidia
# 验证 pytorch 是否成功(返回 True 为正常)
python
import torch
Print(torch.cuda.is_available())

4 模型文件解压

cd checkpoint
gzip -d -c render.pth.gz.001 > render.pth

5 数字人模板

python data_preparation YOUR_VIDEO_PATH

6 数字人合成

将上一步生成的模板和视频放在同一个目录下，比如 test 目录

python demo.py video_data/test video_data/audio0.wav 1.mp4

6 语音输入合成

python demo_avatar.py

总结

这个项目是一个由少镜头学习驱动的实时直播数字人。它旨在在所有30和40系列显卡上流畅运行，确保无缝和交互式的直播体验。

主要特点
实时性能：数字人可以在普通NVIDIA 30和40系列GPU上以25+fps的速度实时交互
少镜头学习：该系统能够从几个例子中学习，以生成逼真的响应。

效果一般，官方提供的案例，测试是通过的，并且代码有点粗糙，项目提供的视频文件合成过程不会有什么问题，我自己采集的视频和音频合成过程就会有视频帧数的报错问题，数字人的整体拟合效果也不是太好的。所以我个人仅是测试下使用效果，并不会进一步使用此项目。

这篇关于2024-09-01 - 通用人工智能技术 - AI 数字人直播 - 合成篇 - 流雨声的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

2024-09-01 - 通用人工智能技术 - AI 数字人直播 - 合成篇 - 流雨声

摘要

应用实践

1 项目获取

2 安装依赖

3 创建运行环境

4 模型文件解压

5 数字人模板

6 数字人合成

6 语音输入合成

总结

相关文章

Python实现特殊字符判断并去掉非字母和数字的特殊字符

Python实现word文档内容智能提取以及合成

基于Python和MoviePy实现照片管理和视频合成工具

SpringBoot3实现Gzip压缩优化的技术指南

Java利用JSONPath操作JSON数据的技术指南

Python中随机休眠技术原理与应用详解

使用Java实现通用树形结构构建工具类

基于Flask框架添加多个AI模型的API并进行交互

使用PyTorch实现手写数字识别功能

java字符串数字补齐位数详解