2.3k Star!腾讯又悄悄地开源了一款音频驱动的真实肖像动画合成框架!

本文主要是介绍2.3k Star!腾讯又悄悄地开源了一款音频驱动的真实肖像动画合成框架!,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

图像和视频处理技术的发展日新月异,每时每刻都在变化,都在进步,也激发了各大研究人员和AI实验室的创造力和可能性。

而近日发现了一款开源项目: AniPortrait,可以实现肖像到视频的生成。看开源作者标注机构是Tencent,它又一次悄摸摸的开源了一款AI项目。

该项目仅上线不到一周,即揽获了2.3k Star。相当的爆火了。

项目介绍

AniPortrait 是一个由音频驱动的真实肖像动画合成框架,能够生成高质量的面部动画,并提供人脸再现功能。

GitHub:https://github.com/Zejun-Yang/AniPortrait

通过使用多种预训练模型,包括 StableDiffusion V1.5、sd-vae-ft-mse、image_encoder和wav2vec2-base-960h,该项目实现了从音频和参考肖像图像驱动的高质量动画生成。

通过提取音频中的3D中间表现形式并转换为2D面部标志,进而利用扩散模型和运动模块生成逼真且时间上连贯的肖像动画。

重点功能:
  • 自我驱动的视频生成

  • 面部再现

  • 音频驱动的视频生成

使用方法

通过下载官方项目包,并完成python环境和cuda相应版本的安装。

下载好项目依赖的预训练模型,然后根据自己的需求输入相关指令生成。具体可查看项目文档。

应用场景

AniPortrait 框架在计算机视觉、模式识别、图形学以及图像和视频处理等多个学科领域具有广泛的应用前景。

其优越的面部动画生成能力可在影视制作、虚拟人物设计、面部运动编辑等领域发挥重要作用。

总结

AniPortrait 的推出为音频驱动的真实肖像动画合成领域注入了新的活力,展现了出色的技术实力和创新能力。

其强大的功能和广泛的应用前景使其成为当前数字图像处理领域的一项重要工具。

这篇关于2.3k Star!腾讯又悄悄地开源了一款音频驱动的真实肖像动画合成框架!的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/900550

相关文章

2.1/5.1和7.1声道系统有什么区别? 音频声道的专业知识科普

《2.1/5.1和7.1声道系统有什么区别?音频声道的专业知识科普》当设置环绕声系统时,会遇到2.1、5.1、7.1、7.1.2、9.1等数字,当一遍又一遍地看到它们时,可能想知道它们是什... 想要把智能电视自带的音响升级成专业级的家庭影院系统吗?那么你将面临一个重要的选择——使用 2.1、5.1 还是

最好用的WPF加载动画功能

《最好用的WPF加载动画功能》当开发应用程序时,提供良好的用户体验(UX)是至关重要的,加载动画作为一种有效的沟通工具,它不仅能告知用户系统正在工作,还能够通过视觉上的吸引力来增强整体用户体验,本文给... 目录前言需求分析高级用法综合案例总结最后前言当开发应用程序时,提供良好的用户体验(UX)是至关重要

基于Python实现PDF动画翻页效果的阅读器

《基于Python实现PDF动画翻页效果的阅读器》在这篇博客中,我们将深入分析一个基于wxPython实现的PDF阅读器程序,该程序支持加载PDF文件并显示页面内容,同时支持页面切换动画效果,文中有详... 目录全部代码代码结构初始化 UI 界面加载 PDF 文件显示 PDF 页面页面切换动画运行效果总结主

MyBatis框架实现一个简单的数据查询操作

《MyBatis框架实现一个简单的数据查询操作》本文介绍了MyBatis框架下进行数据查询操作的详细步骤,括创建实体类、编写SQL标签、配置Mapper、开启驼峰命名映射以及执行SQL语句等,感兴趣的... 基于在前面几章我们已经学习了对MyBATis进行环境配置,并利用SqlSessionFactory核

Qt QWidget实现图片旋转动画

《QtQWidget实现图片旋转动画》这篇文章主要为大家详细介绍了如何使用了Qt和QWidget实现图片旋转动画效果,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 一、效果展示二、源码分享本例程通过QGraphicsView实现svg格式图片旋转。.hpjavascript

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

金融业开源技术 术语

金融业开源技术  术语 1  范围 本文件界定了金融业开源技术的常用术语。 本文件适用于金融业中涉及开源技术的相关标准及规范性文件制定和信息沟通等活动。

安全管理体系化的智慧油站开源了。

AI视频监控平台简介 AI视频监控平台是一款功能强大且简单易用的实时算法视频监控系统。它的愿景是最底层打通各大芯片厂商相互间的壁垒,省去繁琐重复的适配流程,实现芯片、算法、应用的全流程组合,从而大大减少企业级应用约95%的开发成本。用户只需在界面上进行简单的操作,就可以实现全视频的接入及布控。摄像头管理模块用于多种终端设备、智能设备的接入及管理。平台支持包括摄像头等终端感知设备接入,为整个平台提

Linux_kernel驱动开发11

一、改回nfs方式挂载根文件系统         在产品将要上线之前,需要制作不同类型格式的根文件系统         在产品研发阶段,我们还是需要使用nfs的方式挂载根文件系统         优点:可以直接在上位机中修改文件系统内容,延长EMMC的寿命         【1】重启上位机nfs服务         sudo service nfs-kernel-server resta