行业洞察 | 文本生成视频,Meta、Google哪家更胜一筹?

2023-11-12 02:20

本文主要是介绍行业洞察 | 文本生成视频,Meta、Google哪家更胜一筹?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

图片来源 Midjourney Showcase 

当我们沉浸于抖音、快手,吃着零食葛优躺,这个世界正在悄然刷新着我们的认知。此前,通过 DALL-E、MidJourney 和 CrAIyon 等 AI 工具,普通用户可以输入简单的文本内容,经过人工智能创作出艺术插画。近期,Meta和Google在此基础上更进一步,相继推出文本、语音生成视频的黑科技。

 #Meta 

Meta的Make-A-Video不仅能够生成图片,还可以生成声情并茂的视频内容。根据用户输入的描绘某个场景的文本信息,生成一个相匹配的短视频。

样例网站:https://make-a-video.github.io/

 #Google 

除了Meta,Google也在假期之末献上两名视频生成竞争选——Imagen Video和Phenaki。根据Google CEO Sundar Pichai介绍,Imagen Video比Meta的Make-A-Video拥有更高的分辨率,能生成1280*768,每秒24帧的视频分段。

样例网站:Imagen Video

Phenaki则可以根据200个单词左右的文字描述,生成2分钟以上的视频,讲述一个完整的小故事,堪比一个小小的导演。

样例网站:Phenaki

背后到底依赖什么技术?

Make-A-Video - Meta

Make-A-Video的模型架构如下所示,该技术是在原来Text-to-Image的基础上改进而来,主要动机是了解世界的样子,以及描述与其配对的文本图像数据,并从无监督视频中学习现实世界录制视频时的镜头移动。

首先,作者解耦了完整的时间 U-Net 和注意力张量,并在空间和时间上对它们进行近似逼近。其次,作者设计了一个时空流水线来生成高分辨率和帧率视频,其中包含一个视频解码器、插值模型和两个超分辨率模型,可以实现包括 Text-to-Video的各种文本生成应用。

来自源论文:https://arxiv.org/pdf/2209.14792.pdf 

Make-A-Video 的高级架构图中显示,给定由先验 P 翻译成图像嵌入的输入文本 x 和所需的帧速率 f ps ,解码器 Dt 生成 16 个 64 × 64 分辨率的帧,然后通过 ↑F 将其插值到更高的帧速率,并提高分辨率到 SRt l 为 256 × 256,SRh 为 768 × 768,最后生成高时空分辨率的视频 y^。

Imagen Video - Google

Imagen Video是基于最近大火的扩散模型,直接继承图像生成SOTA模型Imagen。

除了分辨率高以外,还展示出三种特别能力。

首先它能理解并生成不同艺术风格的作品,物体的3D结构在旋转展示中不会变形。Imagen Video是一系列模型的集合。语言模型部分是Google自家的T5-XXL,训练好后冻结文本编码器部分。其中,语言模型只负责编码文本特征,把文本到图像转换的工作交给了后面的视频扩散模型。基础模型在生成图像的基础上,以自回归方式不断预测下一帧,首先生成一个48*24每秒3帧的视频。其从文本提示输入开始到生成视频的流程图如下图所示:

来自源论文:https://imagen.research.google/video/paper.pdf 

Phenaki - Google

在Phenaki之前,AI模型可以一个具体提示生成一个超短视频,但是无法生成2分钟连贯的视频。Phenaki实现了脑部故事情节,生成2分钟以上视频。

研究人员引入了一个新的因果模型来学习表示视频:将视频视作图像的一个时间序列。该模型基于Transformer,可以将视频分解成离散的小表示,而分解视频则是按照时间的因果顺序来进行的。也就是通过空间Transformer将单个提示进行编码,随后再用因果Transformer将多个编码好的提示串联起来。其流程图如下所示:

来自源论文:https://openreview.net/pdf?id=vOEXS39nOF 

文本生成视频所带来的冲击

随着文本生成视频技术的快速发展,未来,各大短视频平台的视频或许不再是真人表演秀,而是合成视频的秀场,这将给依靠短视频平台的视频剪辑和录制的人员带来经济冲击。

AI正在革新着各行业,在带来挑战的同时,也带来了更多进步。Stability AI新任首席信息官Daniel Jeffries表示,AI最终会带来更多的工作岗位。任何时候都是挑战与机遇并存,把握时代脉搏就能创造更好的未来。        

这篇关于行业洞察 | 文本生成视频,Meta、Google哪家更胜一筹?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/394429

相关文章

Java编译生成多个.class文件的原理和作用

《Java编译生成多个.class文件的原理和作用》作为一名经验丰富的开发者,在Java项目中执行编译后,可能会发现一个.java源文件有时会产生多个.class文件,从技术实现层面详细剖析这一现象... 目录一、内部类机制与.class文件生成成员内部类(常规内部类)局部内部类(方法内部类)匿名内部类二、

使用Jackson进行JSON生成与解析的新手指南

《使用Jackson进行JSON生成与解析的新手指南》这篇文章主要为大家详细介绍了如何使用Jackson进行JSON生成与解析处理,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. 核心依赖2. 基础用法2.1 对象转 jsON(序列化)2.2 JSON 转对象(反序列化)3.

用js控制视频播放进度基本示例代码

《用js控制视频播放进度基本示例代码》写前端的时候,很多的时候是需要支持要网页视频播放的功能,下面这篇文章主要给大家介绍了关于用js控制视频播放进度的相关资料,文中通过代码介绍的非常详细,需要的朋友可... 目录前言html部分:JavaScript部分:注意:总结前言在javascript中控制视频播放

Python基于wxPython和FFmpeg开发一个视频标签工具

《Python基于wxPython和FFmpeg开发一个视频标签工具》在当今数字媒体时代,视频内容的管理和标记变得越来越重要,无论是研究人员需要对实验视频进行时间点标记,还是个人用户希望对家庭视频进行... 目录引言1. 应用概述2. 技术栈分析2.1 核心库和模块2.2 wxpython作为GUI选择的优

java中使用POI生成Excel并导出过程

《java中使用POI生成Excel并导出过程》:本文主要介绍java中使用POI生成Excel并导出过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录需求说明及实现方式需求完成通用代码版本1版本2结果展示type参数为atype参数为b总结注:本文章中代码均为

在java中如何将inputStream对象转换为File对象(不生成本地文件)

《在java中如何将inputStream对象转换为File对象(不生成本地文件)》:本文主要介绍在java中如何将inputStream对象转换为File对象(不生成本地文件),具有很好的参考价... 目录需求说明问题解决总结需求说明在后端中通过POI生成Excel文件流,将输出流(outputStre

使用Python实现文本转语音(TTS)并播放音频

《使用Python实现文本转语音(TTS)并播放音频》在开发涉及语音交互或需要语音提示的应用时,文本转语音(TTS)技术是一个非常实用的工具,下面我们来看看如何使用gTTS和playsound库将文本... 目录什么是 gTTS 和 playsound安装依赖库实现步骤 1. 导入库2. 定义文本和语言 3

Python实现常用文本内容提取

《Python实现常用文本内容提取》在日常工作和学习中,我们经常需要从PDF、Word文档中提取文本,本文将介绍如何使用Python编写一个文本内容提取工具,有需要的小伙伴可以参考下... 目录一、引言二、文本内容提取的原理三、文本内容提取的设计四、文本内容提取的实现五、完整代码示例一、引言在日常工作和学

Java实现将Markdown转换为纯文本

《Java实现将Markdown转换为纯文本》这篇文章主要为大家详细介绍了两种在Java中实现Markdown转纯文本的主流方法,文中的示例代码讲解详细,大家可以根据需求选择适合的方案... 目录方法一:使用正则表达式(轻量级方案)方法二:使用 Flexmark-Java 库(专业方案)1. 添加依赖(Ma

C/C++随机数生成的五种方法

《C/C++随机数生成的五种方法》C++作为一种古老的编程语言,其随机数生成的方法已经经历了多次的变革,早期的C++版本使用的是rand()函数和RAND_MAX常量,这种方法虽然简单,但并不总是提供... 目录C/C++ 随机数生成方法1. 使用 rand() 和 srand()2. 使用 <random