行业洞察 | 文本生成视频,Meta、Google哪家更胜一筹?

2023-11-12 02:20

本文主要是介绍行业洞察 | 文本生成视频,Meta、Google哪家更胜一筹?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

图片来源 Midjourney Showcase 

当我们沉浸于抖音、快手,吃着零食葛优躺,这个世界正在悄然刷新着我们的认知。此前,通过 DALL-E、MidJourney 和 CrAIyon 等 AI 工具,普通用户可以输入简单的文本内容,经过人工智能创作出艺术插画。近期,Meta和Google在此基础上更进一步,相继推出文本、语音生成视频的黑科技。

 #Meta 

Meta的Make-A-Video不仅能够生成图片,还可以生成声情并茂的视频内容。根据用户输入的描绘某个场景的文本信息,生成一个相匹配的短视频。

样例网站:https://make-a-video.github.io/

 #Google 

除了Meta,Google也在假期之末献上两名视频生成竞争选——Imagen Video和Phenaki。根据Google CEO Sundar Pichai介绍,Imagen Video比Meta的Make-A-Video拥有更高的分辨率,能生成1280*768,每秒24帧的视频分段。

样例网站:Imagen Video

Phenaki则可以根据200个单词左右的文字描述,生成2分钟以上的视频,讲述一个完整的小故事,堪比一个小小的导演。

样例网站:Phenaki

背后到底依赖什么技术?

Make-A-Video - Meta

Make-A-Video的模型架构如下所示,该技术是在原来Text-to-Image的基础上改进而来,主要动机是了解世界的样子,以及描述与其配对的文本图像数据,并从无监督视频中学习现实世界录制视频时的镜头移动。

首先,作者解耦了完整的时间 U-Net 和注意力张量,并在空间和时间上对它们进行近似逼近。其次,作者设计了一个时空流水线来生成高分辨率和帧率视频,其中包含一个视频解码器、插值模型和两个超分辨率模型,可以实现包括 Text-to-Video的各种文本生成应用。

来自源论文:https://arxiv.org/pdf/2209.14792.pdf 

Make-A-Video 的高级架构图中显示,给定由先验 P 翻译成图像嵌入的输入文本 x 和所需的帧速率 f ps ,解码器 Dt 生成 16 个 64 × 64 分辨率的帧,然后通过 ↑F 将其插值到更高的帧速率,并提高分辨率到 SRt l 为 256 × 256,SRh 为 768 × 768,最后生成高时空分辨率的视频 y^。

Imagen Video - Google

Imagen Video是基于最近大火的扩散模型,直接继承图像生成SOTA模型Imagen。

除了分辨率高以外,还展示出三种特别能力。

首先它能理解并生成不同艺术风格的作品,物体的3D结构在旋转展示中不会变形。Imagen Video是一系列模型的集合。语言模型部分是Google自家的T5-XXL,训练好后冻结文本编码器部分。其中,语言模型只负责编码文本特征,把文本到图像转换的工作交给了后面的视频扩散模型。基础模型在生成图像的基础上,以自回归方式不断预测下一帧,首先生成一个48*24每秒3帧的视频。其从文本提示输入开始到生成视频的流程图如下图所示:

来自源论文:https://imagen.research.google/video/paper.pdf 

Phenaki - Google

在Phenaki之前,AI模型可以一个具体提示生成一个超短视频,但是无法生成2分钟连贯的视频。Phenaki实现了脑部故事情节,生成2分钟以上视频。

研究人员引入了一个新的因果模型来学习表示视频:将视频视作图像的一个时间序列。该模型基于Transformer,可以将视频分解成离散的小表示,而分解视频则是按照时间的因果顺序来进行的。也就是通过空间Transformer将单个提示进行编码,随后再用因果Transformer将多个编码好的提示串联起来。其流程图如下所示:

来自源论文:https://openreview.net/pdf?id=vOEXS39nOF 

文本生成视频所带来的冲击

随着文本生成视频技术的快速发展,未来,各大短视频平台的视频或许不再是真人表演秀,而是合成视频的秀场,这将给依靠短视频平台的视频剪辑和录制的人员带来经济冲击。

AI正在革新着各行业,在带来挑战的同时,也带来了更多进步。Stability AI新任首席信息官Daniel Jeffries表示,AI最终会带来更多的工作岗位。任何时候都是挑战与机遇并存,把握时代脉搏就能创造更好的未来。        

这篇关于行业洞察 | 文本生成视频,Meta、Google哪家更胜一筹?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/394429

相关文章

详解Java中如何使用JFreeChart生成甘特图

《详解Java中如何使用JFreeChart生成甘特图》甘特图是一种流行的项目管理工具,用于显示项目的进度和任务分配,在Java开发中,JFreeChart是一个强大的开源图表库,能够生成各种类型的图... 目录引言一、JFreeChart简介二、准备工作三、创建甘特图1. 定义数据集2. 创建甘特图3.

Java操作xls替换文本或图片的功能实现

《Java操作xls替换文本或图片的功能实现》这篇文章主要给大家介绍了关于Java操作xls替换文本或图片功能实现的相关资料,文中通过示例代码讲解了文件上传、文件处理和Excel文件生成,需要的朋友可... 目录准备xls模板文件:template.xls准备需要替换的图片和数据功能实现包声明与导入类声明与

python解析HTML并提取span标签中的文本

《python解析HTML并提取span标签中的文本》在网页开发和数据抓取过程中,我们经常需要从HTML页面中提取信息,尤其是span元素中的文本,span标签是一个行内元素,通常用于包装一小段文本或... 目录一、安装相关依赖二、html 页面结构三、使用 BeautifulSoup javascript

流媒体平台/视频监控/安防视频汇聚EasyCVR播放暂停后视频画面黑屏是什么原因?

视频智能分析/视频监控/安防监控综合管理系统EasyCVR视频汇聚融合平台,是TSINGSEE青犀视频垂直深耕音视频流媒体技术、AI智能技术领域的杰出成果。该平台以其强大的视频处理、汇聚与融合能力,在构建全栈视频监控系统中展现出了独特的优势。视频监控管理系统EasyCVR平台内置了强大的视频解码、转码、压缩等技术,能够处理多种视频流格式,并以多种格式(RTMP、RTSP、HTTP-FLV、WebS

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

pdfmake生成pdf的使用

实际项目中有时会有根据填写的表单数据或者其他格式的数据,将数据自动填充到pdf文件中根据固定模板生成pdf文件的需求 文章目录 利用pdfmake生成pdf文件1.下载安装pdfmake第三方包2.封装生成pdf文件的共用配置3.生成pdf文件的文件模板内容4.调用方法生成pdf 利用pdfmake生成pdf文件 1.下载安装pdfmake第三方包 npm i pdfma

poj 1258 Agri-Net(最小生成树模板代码)

感觉用这题来当模板更适合。 题意就是给你邻接矩阵求最小生成树啦。~ prim代码:效率很高。172k...0ms。 #include<stdio.h>#include<algorithm>using namespace std;const int MaxN = 101;const int INF = 0x3f3f3f3f;int g[MaxN][MaxN];int n

poj 1287 Networking(prim or kruscal最小生成树)

题意给你点与点间距离,求最小生成树。 注意点是,两点之间可能有不同的路,输入的时候选择最小的,和之前有道最短路WA的题目类似。 prim代码: #include<stdio.h>const int MaxN = 51;const int INF = 0x3f3f3f3f;int g[MaxN][MaxN];int P;int prim(){bool vis[MaxN];

poj 2349 Arctic Network uva 10369(prim or kruscal最小生成树)

题目很麻烦,因为不熟悉最小生成树的算法调试了好久。 感觉网上的题目解释都没说得很清楚,不适合新手。自己写一个。 题意:给你点的坐标,然后两点间可以有两种方式来通信:第一种是卫星通信,第二种是无线电通信。 卫星通信:任何两个有卫星频道的点间都可以直接建立连接,与点间的距离无关; 无线电通信:两个点之间的距离不能超过D,无线电收发器的功率越大,D越大,越昂贵。 计算无线电收发器D