腾讯浙大提出定制化视频生成框架CustomCrafter,只需通过少量图像就可以完成高质量视频生成!

本文主要是介绍腾讯浙大提出定制化视频生成框架CustomCrafter,只需通过少量图像就可以完成高质量视频生成!,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

腾讯联合浙大提出了一种定制化视频生成框架-CustomCrafter,它能够基于文本提示和参考图像生成自定义视频,同时保留运动生成和概念组合的能力。通过设计一系列灵活的模块,使得模型实现了无需额外视频,通过少量图像学习,就能生成高质量的个性化视频。

上图为 CustomCrafter 可视化结果。CustomCrafter允许自定义主体身份和运动模式 通过保留运动生成和概念组合能力来生成带有文本提示的所需视频。

相关链接

论文地址:http://arxiv.org/abs/2408.13239v1

项目主页:https://customcrafter.github.io/

论文阅读

CustomCrafter:具有保留动作和概念合成功能的定制视频生成

摘要

定制视频生成旨在通过文本提示和主体参考图像生成高质量的视频。然而,由于它只在静态图像上进行训练,主体学习的微调过程会破坏视频扩散模型 (VDM) 组合概念和生成运动的能力。为了恢复这些能力,一些方法使用类似于提示的额外视频来微调或引导模型。这需要在生成不同运动时频繁更改引导视频甚至重新调整模型,这对用户来说非常不方便。

在本文中,我们提出了 CustomCrafter,这是一个新颖的框架,它保留了模型的运动生成和概念组合能力,而无需额外的视频和微调来恢复。为了保留概念组合能力,我们设计了一个即插即用模块来更新 VDM 中的一些参数,增强了模型捕捉外观细节的能力和对新主体的概念组合能力。对于运动生成,我们观察到 VDM 倾向于在去噪的早期阶段恢复视频的运动,而在后期阶段专注于恢复主体细节。因此我们提出动态加权视频采样策略,利用主体学习模块的可插拔性,在去噪前期降低该模块对运动生成的影响,保留VDM的生成运动的能力;在去噪后期恢复该模块,修复指定主体的外观细节,从而保证主体外观的逼真度。实验结果表明,我们的方法相比之前的方法有明显的提升。

方法

CustomCrafter 整体回顾。对于主题学习,我们采用 LoRA 构建空间主题学习模块,该模块更新所有 Spatial Transformer 模型中注意力层的 Query、Key 和 Value 参数。在生成视频的过程中,我们将去噪过程分为两个阶段:运动布局修复过程和主题外观修复过程。通过在运动布局修复过程中降低空间主题学习模块的影响,并在主题外观修复过程中恢复它来修复主题的细节。

与以前的工作相比,CustomCrafter 方法的特点是可以更好地学习主体的外观,同时保留概念组合能力和运动生成能力,只需要一个阶段的训练,而无需额外的视频。DWV 采样策略是我们的动态加权视频采样策略。

视频去噪过程的可视化。运动在去噪过程的早期阶段形成,主体的外观在后期阶段显现。

效果

与 SOTA 的比较

对包含主题和动作的定制视频生成进行定性比较。 在没有其他视频指导的情况下,我们的方法在概念组合方面表现明显优于其他方法。

对包含主题和动作的定制视频生成进行定性比较。在没有其他视频指导的情况下,我们的方法在概念组合方面表现明显优于其他方法。

用户研究。CustomCrafter与其他比较方法的比较做到最好人类偏好。

结论

在本文中,我们介绍了 CustomCrafter,一种用于定制视频生成的新框架。这种方法不需要额外的视频来修复运动生成能力。我们首先设计了一个空间主题学习模块,它更新了空间注意力以完成对主题外观特征的学习。同时,我们提出了一种动态加权视频生成,它改进了模型的推理过程以恢复 VDM 的运动生成能力。通过定性和定量实验,我们证明了我们的方法比现有方法更好,保留了 VDM 结合概念和生成运动的能力。

这篇关于腾讯浙大提出定制化视频生成框架CustomCrafter,只需通过少量图像就可以完成高质量视频生成!的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1110933

相关文章

Python+FFmpeg实现视频自动化处理的完整指南

《Python+FFmpeg实现视频自动化处理的完整指南》本文总结了一套在Python中使用subprocess.run调用FFmpeg进行视频自动化处理的解决方案,涵盖了跨平台硬件加速、中间素材处理... 目录一、 跨平台硬件加速:统一接口设计1. 核心映射逻辑2. python 实现代码二、 中间素材处

Java使用Spire.Barcode for Java实现条形码生成与识别

《Java使用Spire.BarcodeforJava实现条形码生成与识别》在现代商业和技术领域,条形码无处不在,本教程将引导您深入了解如何在您的Java项目中利用Spire.Barcodefor... 目录1. Spire.Barcode for Java 简介与环境配置2. 使用 Spire.Barco

SpringBoot集成iText快速生成PDF教程

《SpringBoot集成iText快速生成PDF教程》本文介绍了如何在SpringBoot项目中集成iText9.4.0生成PDF文档,包括新特性的介绍、环境准备、Service层实现、Contro... 目录SpringBoot集成iText 9.4.0生成PDF一、iText 9新特性与架构变革二、环

idea-java序列化serialversionUID自动生成方式

《idea-java序列化serialversionUID自动生成方式》Java的Serializable接口用于实现对象的序列化和反序列化,通过将对象转换为字节流来存储或传输,实现Serializa... 目录简介实现序列化serialVersionUID配置使用总结简介Java.io.Seripyth

Java中的随机数生成案例从范围字符串到动态区间应用

《Java中的随机数生成案例从范围字符串到动态区间应用》本文介绍了在Java中生成随机数的多种方法,并通过两个案例解析如何根据业务需求生成特定范围的随机数,本文通过两个实际案例详细介绍如何在java中... 目录Java中的随机数生成:从范围字符串到动态区间应用引言目录1. Java中的随机数生成基础基本随

C#自动化生成PowerPoint(PPT)演示文稿

《C#自动化生成PowerPoint(PPT)演示文稿》在当今快节奏的商业环境中,演示文稿是信息传递和沟通的关键工具,下面我们就深入探讨如何利用C#和Spire.Presentationfor.NET... 目录环境准备与Spire.Presentation安装核心操作:添加与编辑幻灯片元素添加幻灯片文本操

Python实现Word文档自动化的操作大全(批量生成、模板填充与内容修改)

《Python实现Word文档自动化的操作大全(批量生成、模板填充与内容修改)》在职场中,Word文档是公认的好伙伴,但你有没有被它折磨过?批量生成合同、制作报告以及发放证书/通知等等,这些重复、低效... 目录重复性文档制作,手动填充模板,效率低下还易错1.python-docx入门:Word文档的“瑞士

使用python生成固定格式序号的方法详解

《使用python生成固定格式序号的方法详解》这篇文章主要为大家详细介绍了如何使用python生成固定格式序号,文中的示例代码讲解详细,具有一定的借鉴价值,有需要的小伙伴可以参考一下... 目录生成结果验证完整生成代码扩展说明1. 保存到文本文件2. 转换为jsON格式3. 处理特殊序号格式(如带圈数字)4

Java使用Swing生成一个最大公约数计算器

《Java使用Swing生成一个最大公约数计算器》这篇文章主要为大家详细介绍了Java使用Swing生成一个最大公约数计算器的相关知识,文中的示例代码讲解详细,感兴趣的小伙伴可以了解一下... 目录第一步:利用欧几里得算法计算最大公约数欧几里得算法的证明情形 1:b=0情形 2:b>0完成相关代码第二步:加

Vue3视频播放组件 vue3-video-play使用方式

《Vue3视频播放组件vue3-video-play使用方式》vue3-video-play是Vue3的视频播放组件,基于原生video标签开发,支持MP4和HLS流,提供全局/局部引入方式,可监听... 目录一、安装二、全局引入三、局部引入四、基本使用五、事件监听六、播放 HLS 流七、更多功能总结在 v