VALSE 2024 Workshop报告分享┆探索短视频生成与编辑的前沿技术

本文主要是介绍VALSE 2024 Workshop报告分享┆探索短视频生成与编辑的前沿技术,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

2024年视觉与学习青年学者研讨会(VALSE 2024)于5月5日到7日在重庆悦来国际会议中心举行。本公众号将全方位地对会议的热点进行报道,方便广大读者跟踪和了解人工智能的前沿理论和技术。欢迎广大读者对文章进行关注、阅读和转发。文章是对报告人演讲内容的理解或转述,可能与报告人的原意有所不同,敬请读者理解;如报告人认为文章与自己报告的内容差别较大,可以联系公众号删除。

本文对微软亚洲研究院的罗翀博士所做的Workshop报告《探索短视频生成与编辑的前沿技术》进行总结和分享。

1.报告人简介

罗翀,上海交通大学信号与信息处理专业博士,现任微软亚洲研究院智能多媒体组高级研究员,中国科学技术大学兼职教授、博士生导师,研究领域包括计算机视觉、智能语音、跨模态视频分析、视频通信等。

2.报告概览

首先,罗博士在报告中首先对近年图像和视频生成做了简要回顾,包括过去几年中图像/视频生成领域的发展和技术进本。随后,他介绍了最近的创新应用,旨在通过讨论最新技术和展望未来发展,为相关研究人员提供图像和视频生成领域的全面了解。

3.内容整理

罗博士的报告主要分为三个部分,下面逐一加以详细介绍

(1)图像和视频生成的简要回顾

1)文本生成图像

报告中呈现了文本生成图像领域的发展历程,从2016年基于生成对抗网络的方法,到2024年3月Stability AI发布的最强图片生成模型Stable Diffusion3。从图像结果和技术视角两个方向,罗博士介绍了图像生成的发展趋势。从图像结果来看,视觉上更吸引人:从“基本上是我想要的”到 “看起来惊人”;图像的分辨率得到提升:从256x256 到 1024x1024 ,再到超过2k;模型能够更好的理解提示:包括对象关系、数量和属性等;模型能够更好的进行符号控制:能够正确地拼写复杂文本。从技术视角来看,模型的规模扩大:Stable Diffusion3最大可达到8B;此外,扩散模型成为该领域的主流技术;最新的技术已经可以实现矫正流、噪声调度等高级操作。

2)文本生成视频

罗博士总结了文本生成视频领域从2021年到2024年的关键技术,从微软亚洲研究院和北京大学于2021年11月联合提出的NUWA模型,到2024年3月OpenAI发布的震惊业界的Sora。随后讨论了Sora发布之前,视频生成技术的现状和挑战。例如,存在场景单一、动作简单或者细微、难以在大幅度运动时保持表现的一致性等问题。

(2)图像和视频生成的技术进展

1)MicroCinema

MicroCinema是一个用于文本生成视频的有效框架,引入了一种分而治之的策略,将文本到视频的过程分为两个阶段:文本生成图像和图像/文本生成视频。这种策略具有两个显著优势:一是充分利用了Stable Diffusion、Midjourney 和 DALLE 等文本生成图像模型的最新技术;二是利用生成的图使模型可以较少关注细粒度的外观细节,更优先考虑运动动力学的高效学习。图1展示了MicroCinema创建连贯且高质量视频的能力。

论文下载链接:https://arxiv.org/abs/2311.18829。

视频样本下载链接:https://wangyanhui666.github.io/MicroCinema.github.io/。

图 1 MicroCinema生成的样本视频

MicroCinema目前面临的关键挑战包含两个方面,一是如何将图像条件注入到视频生成网络中,以确保图像条件得到忠实保留、视频生成能力不受影响;二是如何确保稳定生成,避免外观损坏或动作不一致。

2)CCEdit

CCEdit是一种基于扩散模型的多功能生成性视频编辑框架,采用了一种三叉网络结构,包括文本到视频(T2V)主分支、外观分支和结构分支。模型区分了结构和外观控制,从而确保精确和创造性的编辑能力,通过ControlNet架构保持编辑过程中视频的结构完整性。增加的外观分支使用户能够对关键帧进行细粒度控制。模型的主分支基于现有的文本到图像(T2I)生成模型构建,然后将两个侧分支无缝地整合到主分支中,并通过可学习的时间层进行连接。CCEdit在多项评估指标上取得了目前最优表现,图2展示CCEdit强大而灵活的视频编辑额能力。

论文下载链接:https://arxiv.org/abs/2309.16496。

视频样本下载链接:https://ruoyufeng.github.io/CCEdit.github.io/。

图 2  CCEdit为用户提供了一套强大而灵活的视频编辑功能,包括风格迁移(第1 ~ 3行)、前景修改(第4行)和背景替换(第5行)。

(3)讨论与展望

1)讨论

尽管已解决了一些存在的问题,但关于自动编码器/分词器的重要性、高描述性文本标题, DiT相比于U-net在强度和扩展性方面的优势等仍需进一步研究。此外,视频生成模型在可控性、一致性以及多轮视频生成与编辑方面的问题依然存在,这些都是当前亟需克服的技术难题。

2)展望

视频生成技术正处于一个多元化创新和快速发展的阶段,正面临着多种技术挑战和行业变革的机遇。在资源有限的情况下,解耦外观与动作建模是一种有效的可行策略。当前,视频生成模型还需要解决可控性、场景与物体一致性及多轮编辑的可行性等问题。研究统一理解与生成、多模态融合的最佳模型是重点方向之一。此外,视频生成技术对人工通用智能的发展具有重要推动作用,但仍需评估Sora技术作为实现世界模拟器的潜在有效性。

这篇关于VALSE 2024 Workshop报告分享┆探索短视频生成与编辑的前沿技术的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/972095

相关文章

MybatisGenerator文件生成不出对应文件的问题

《MybatisGenerator文件生成不出对应文件的问题》本文介绍了使用MybatisGenerator生成文件时遇到的问题及解决方法,主要步骤包括检查目标表是否存在、是否能连接到数据库、配置生成... 目录MyBATisGenerator 文件生成不出对应文件先在项目结构里引入“targetProje

Golang操作DuckDB实战案例分享

《Golang操作DuckDB实战案例分享》DuckDB是一个嵌入式SQL数据库引擎,它与众所周知的SQLite非常相似,但它是为olap风格的工作负载设计的,DuckDB支持各种数据类型和SQL特性... 目录DuckDB的主要优点环境准备初始化表和数据查询单行或多行错误处理和事务完整代码最后总结Duck

Python使用qrcode库实现生成二维码的操作指南

《Python使用qrcode库实现生成二维码的操作指南》二维码是一种广泛使用的二维条码,因其高效的数据存储能力和易于扫描的特点,广泛应用于支付、身份验证、营销推广等领域,Pythonqrcode库是... 目录一、安装 python qrcode 库二、基本使用方法1. 生成简单二维码2. 生成带 Log

Python视频处理库VidGear使用小结

《Python视频处理库VidGear使用小结》VidGear是一个高性能的Python视频处理库,本文主要介绍了Python视频处理库VidGear使用小结,文中通过示例代码介绍的非常详细,对大家的... 目录一、VidGear的安装二、VidGear的主要功能三、VidGear的使用示例四、VidGea

将Python应用部署到生产环境的小技巧分享

《将Python应用部署到生产环境的小技巧分享》文章主要讲述了在将Python应用程序部署到生产环境之前,需要进行的准备工作和最佳实践,包括心态调整、代码审查、测试覆盖率提升、配置文件优化、日志记录完... 目录部署前夜:从开发到生产的心理准备与检查清单环境搭建:打造稳固的应用运行平台自动化流水线:让部署像

Python使用Pandas库将Excel数据叠加生成新DataFrame的操作指南

《Python使用Pandas库将Excel数据叠加生成新DataFrame的操作指南》在日常数据处理工作中,我们经常需要将不同Excel文档中的数据整合到一个新的DataFrame中,以便进行进一步... 目录一、准备工作二、读取Excel文件三、数据叠加四、处理重复数据(可选)五、保存新DataFram

SpringBoot生成和操作PDF的代码详解

《SpringBoot生成和操作PDF的代码详解》本文主要介绍了在SpringBoot项目下,通过代码和操作步骤,详细的介绍了如何操作PDF,希望可以帮助到准备通过JAVA操作PDF的你,项目框架用的... 目录本文简介PDF文件简介代码实现PDF操作基于PDF模板生成,并下载完全基于代码生成,并保存合并P

C#读取本地网络配置信息全攻略分享

《C#读取本地网络配置信息全攻略分享》在当今数字化时代,网络已深度融入我们生活与工作的方方面面,对于软件开发而言,掌握本地计算机的网络配置信息显得尤为关键,而在C#编程的世界里,我们又该如何巧妙地读取... 目录一、引言二、C# 读取本地网络配置信息的基础准备2.1 引入关键命名空间2.2 理解核心类与方法

Golang使用etcd构建分布式锁的示例分享

《Golang使用etcd构建分布式锁的示例分享》在本教程中,我们将学习如何使用Go和etcd构建分布式锁系统,分布式锁系统对于管理对分布式系统中共享资源的并发访问至关重要,它有助于维护一致性,防止竞... 目录引言环境准备新建Go项目实现加锁和解锁功能测试分布式锁重构实现失败重试总结引言我们将使用Go作

Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)

《Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)》:本文主要介绍Python基于火山引擎豆包大模型搭建QQ机器人详细的相关资料,包括开通模型、配置APIKEY鉴权和SD... 目录豆包大模型概述开通模型付费安装 SDK 环境配置 API KEY 鉴权Ark 模型接口Prompt