VideoComposer: Compositional Video Synthesis with Motion Controllability

本文主要是介绍VideoComposer: Compositional Video Synthesis with Motion Controllability,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在这里插入图片描述
decompose videos into three distinct types of conditions: textual conditions, spatial conditions, temperal conditions

  1. 条件的内容:
    a. textual condition: coarse grained visual content and motions, 使用openclip vit-H/14的text encoder
    b. spatial condition: the goal is to achieve fine-grained spatial control
    ⅰ. single image: a single image reveal the content and structure of this video, 使用视频的第一帧作为图生视频的spatial条件
    ⅱ. single sketch: 使用PiDiNet提取第一帧的sketch
    ⅲ. style: 为了将一张图片的风格迁移到视频,以图片的embedding作为条件,使用OpenCLIP ViT-H/14的image encoder
    c. temporal conditions:
    ⅰ. motion vector: 光流图
    ⅱ. depth sequence: 使用预训练的深度估计模型来提取深度
    ⅲ. mask sequence:为了editing和inpaint任务
    ⅳ. sketch sequence
  2. 条件的处理:所有的condition根据是否经过STC-encoder分为两类,一类是text和style(image embedding),通过cross attention来进行交互,另一类经过STC-encoder的condition,处理后的尺寸和视频的latent一样,所有的condition先首先element-wise add操作,之后和 x t x_t xt进行拼接输入到网络当中;
  3. 训练策略:两阶段训练,首先是预训练阶段,然后是带条件的视频生成训练;
  4. 推理:使用classifier free guidance ϵ ^ θ ( z t , c , t ) = ϵ θ ( z t , c 1 , t ) + w ( ϵ θ ( z t , c 2 , t ) − ϵ θ ( z t , c 1 , t ) ) \widehat\epsilon_\theta(z_t,c,t) = \epsilon_\theta(z_t,c_1,t) + w(\epsilon_\theta(z_t,c_2,t)-\epsilon_\theta(z_t,c_1,t)) ϵ θ(zt,c,t)=ϵθ(zt,c1,t)+w(ϵθ(zt,c2,t)ϵθ(zt,c1,t))其中 c 1 c_1 c1 c 2 c_2 c2是两组条件,强调 c 2 − c 1 c_2-c_1 c2c1的条件,例如在text-driven video inpainting当中, c 2 c_2 c2表示caption+masked video, c 1 c_1 c1表示masked video;
  5. 实验:
    a. 数据:使用了两个数据集webvid10M和LAION-400M
    b. 评价指标:
    ⅰ. 帧间一致性指标:计算相邻两帧的CLIP cosine similarity
    ⅱ. motion control: 计算像素的预测光流和GT的欧式距离;
    c. 首先展示了模型在组合控制条件来控制视频生成上面的能力,包括图生视频(+text)和视频inpainting以及根据sketch生成视频的能力,并展示相应的可视化效果;
    d. 展示motion control的能力:
    e. 消融实验:验证STC-encoder的有效性

这篇关于VideoComposer: Compositional Video Synthesis with Motion Controllability的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/924255

相关文章

FFplay源码分析-video_thread

《FFmpeg原理》的社群来了,想加入社群的朋友请购买 VIP 版,VIP 版有更高级的内容与答疑服务。 本系列 以 ffmpeg4.2 源码为准,下载地址:链接:百度网盘 提取码:g3k8 FFplay 源码分析系列以一条简单的命令开始,ffplay -i a.mp4。a.mp4下载链接:百度网盘,提取码:nl0s 。 上一篇文章已经讲解完了 audio_thread() 音频解码

ffmpeg+nginx+video实现rtsp流转hls流,web页面播放

项目场景: 最近调试海康摄像头需要将rtsp流在html页面播放,因为不想去折腾推拉流,所以我选择ffmpeg转hls流,nginx转发,html直接访问就好了 1.首先要下载nginx和ffmpeg 附上下载地址: nginx nginx news ffmpeg https://github.com/BtbN/FFmpeg-Builds/releases ffmpeg解压后 需配置环

Polyp-DDPM: Diffusion-Based Semantic Polyp Synthesis for Enhanced Segmentation

Polyp- ddpm:基于扩散的语义Polyp合成增强分割 摘要: 本研究介绍了一种基于扩散的方法Polyp-DDPM,该方法用于生成假面条件下息肉的逼真图像,旨在增强胃肠道息肉的分割。我们的方法解决了与医学图像相关的数据限制、高注释成本和隐私问题的挑战。通过对分割掩模(代表异常区域的二进制掩模)的扩散模型进行调节,poly - ddpm在图像质量(实现fr起始距离(FID)得分为78.47

【漏洞复现】极限OA video_file.php 任意文件读取漏洞

免责声明:         本文内容旨在提供有关特定漏洞或安全漏洞的信息,以帮助用户更好地了解可能存在的风险。公布此类信息的目的在于促进网络安全意识和技术进步,并非出于任何恶意目的。阅读者应该明白,在利用本文提到的漏洞信息或进行相关测试时,可能会违反某些法律法规或服务协议。同时,未经授权地访问系统、网络或应用程序可能导致法律责任或其他严重后果。作者不对读者基于本文内容而产生的任何行为或后果承担

用群辉NAS打造影视墙(Video Station篇)

目录 一、群辉套件Video Station 1、安装 2、进入系统 3、配置刮削器 4、获取TMDB网站API密钥 5、配置DNS (1)开启SSH (2)使用终端工具连接到NAS (3)修改hosts文件 (4)再次测试连接 6、设置目录 二、手机端APP设置 三、电视端APP 四、解决影视信息错误 NAS中保存大量影视资源,如何方便读取放映,操作简洁明快

HTML5-Video视频-基础篇

展示视频 视频 <video width="320" height="240" controls="controls"><source src="movie.mp4" type="video/mp4"></source><source src="movie.ogv" type="video/ogg"></source><source src="movie.webm" type="vide

h5的video下载按钮如何隐藏

h5的video下载按钮在部分手机系统上是不可用的,想要把这个按钮屏蔽掉,可苦于没有像屏蔽全屏按钮那样的伪类video::-webkit-media-controls-fullscreen-button {display: none;} 只好找了一种比较搓的方法: video::-webkit-media-controls-enclosure {    overflow:hidden;}vid

轨迹规划论文阅读20220109-A Real-Time Motion Planner with Trajectory Optimization for Autonomous Vehicles

0、摘要 提出了一种基于轨迹优化的高效实时自动驾驶运动规划方法。将轨迹空间离散化->利用cost functions 来找到最佳轨迹。 引[CSDN1]: 规划器首先把规划空间离散化 ,并根据一组代价函数搜索最优轨迹,然后对轨迹的path和speed进行迭代优化。文中提出了一种“post-optimization”的方法,可以弥补离散化难以求出最优解的问题(离散越密,越接近最优解),

关于html5 video currentTime 在chrome浏览器下设定失败问题解决

转载自:https://blog.csdn.net/qq_26389441/article/details/62044183 跳槽了,刚到新公司,经理让用video,点击旁边字幕可以切换视频播放起始时间,搞个小demo。video  方法,事件看一看,ok!       老习惯,各个浏览器测试一波,IE11可以,火狐可以,谷歌。。。擦,很慌居然不可以!检查了一遍代码,没问题啊!百度一波,网上有