从大咖视角窥探Sora六大技术创新

2024-02-19 17:28

本文主要是介绍从大咖视角窥探Sora六大技术创新,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

谢赛宁

纽约大学助理教授谢赛宁(ResNeXt的一作)直言,Sora将改写整个视频生成领域。

1、Sora应该是建立在DiT这个扩散Transformer之上的。即DiT是一个带有Transformer主干的扩散模型,它= [VAE 编码器 + ViT + DDPM + VAE 解码器]。

2、关于视频压缩网络,Sora可能采用的就是VAE架构,区别就是经过原始视频数据训练。

而由于VAE是一个ConvNet,所以DiT从技术上来说是一个混合模型。

3、Sora可能有大约30亿个参数。

Jim Fan

1、视频生成的GPT-3时刻

2、Sora应该是一个数据驱动的物理引擎。

3、Sora是对现实或幻想世界的模拟,它通过一些去噪、梯度下降去学习复杂渲染、“直觉”物理、长镜头推理和语义基础等。

Jim Fan分析,Sora首先要提供两个3D资产:不同装饰的海盗船;必须在潜在空间中解决text-to-3D的隐式问题;并且要两艘船避开彼此的路线,兼顾咖啡液体的流体力学、保持真实感、带来仿佛光追般的效果。

4、Sora还无法取代游戏引擎开发者

因为它对于物理的理解还远远不够,仍然存在非常严重的“幻觉”。

六大技术创新

Sora是一个在不同时长、分辨率和宽高比的视频及图像上训练而成的扩散模型,同时采用了Transformer架构,也就是一种“扩散型Transformer”

1.将视觉数据转化为补丁(Turning visual data into patches)

在较高层面上,我们首先将视频压缩到较低维的潜在空间,19 然后将表示分解为时空补丁,从而将视频转换为补丁。

2.视频压缩网络(Video compression network)

训练了一个降低视觉数据维度的网络。该网络将原始视频作为输入,并输出在时间和空间上压缩的潜在表示。 Sora 在这个压缩的潜在空间中接受训练并随后生成视频。 还训练了相应的解码器模型,将生成的潜在表示映射回像素空间。

3.空时潜在补丁(Spacetime latent patches)

给定一个压缩的输入视频,我们提取一系列时空补丁,充当变压器令牌。 该方案也适用于图像,因为图像只是具有单帧的视频。 我们基于补丁的表示使 Sora 能够对不同分辨率、持续时间和长宽比的视频和图像进行训练。 在推理时,我们可以通过在适当大小的网格中排列随机初始化的补丁来控制生成视频的大小。

4.用视频生成的可伸缩的转换器(Scaling transformers for video generation)

Sora 是扩散模型; 给定输入噪声补丁(以及文本提示等调节信息),它被训练来预测原始的“干净”补丁。 重要的是,Sora 是一个扩散转换器。Transformer 在各个领域都表现出了卓越的缩放特性,包括语言建模、计算机视觉、和图像生成。

在下面的例子中,可以发现可伸缩的转换器也可以有效地缩放为视频模型。 本例,展示了训练过程中具有固定种子和输入的视频样本的比较。 随着训练计算的增加,样本质量显着提高。

5.可变的持续时间、分辨率、宽高比(Variable durations, resolutions, aspect ratios)

过去的图像和视频生成方法通常会将视频调整大小、裁剪或修剪为标准尺寸,例如 256x256 分辨率的 4 秒视频。 我们发现,对原始大小的数据进行训练有如下优点。

1)采样灵活


Sora 可以采样宽屏 1920x1080p 视频、垂直 1080x1920 视频以及介于两者之间的所有视频。 这使得 Sora 可以直接以其原生宽高比为不同设备创建内容。 它还使我们能够在以全分辨率生成之前快速以较低尺寸制作原型内容 - 所有这些都使用相同的模型。

2)改善帧和构图


我们根据经验发现,以原始长宽比对视频进行训练可以改善构图和取景。 我们将 Sora 与将所有训练视频裁剪为正方形的模型版本进行比较,这是训练生成模型时的常见做法。 在方形作物(左)上训练的模型有时会生成仅部分可见主体的视频。 相比之下,Sora(右)的视频的取景效果有所改善。

6.语言理解Language understanding

训练文本到视频生成系统需要大量带有相应文本字幕的视频。 我们将 DALL·E 3中引入的重新字幕技术应用于视频。 我们首先训练一个高度描述性的字幕生成器模型,然后使用它为训练集中的所有视频生成文本字幕。 我们发现,对高度描述性视频字幕进行训练可以提高文本保真度以及视频的整体质量。

与 DALL·E 3 类似,我们还利用 GPT 将简短的用户提示转换为较长的详细字幕,然后发送到视频模型。 这使得 Sora 能够生成准确遵循用户提示的高质量视频。

GPT-4 Turbo也大幅降低速率限制,提高TPM(每分钟最大token数量),较上一次实现2倍提升。

这篇关于从大咖视角窥探Sora六大技术创新的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/725392

相关文章

亮相WOT全球技术创新大会,揭秘火山引擎边缘容器技术在泛CDN场景的应用与实践

2024年6月21日-22日,51CTO“WOT全球技术创新大会2024”在北京举办。火山引擎边缘计算架构师李志明受邀参与,以“边缘容器技术在泛CDN场景的应用和实践”为主题,与多位行业资深专家,共同探讨泛CDN行业技术架构以及云原生与边缘计算的发展和展望。 火山引擎边缘计算架构师李志明表示:为更好地解决传统泛CDN类业务运行中的问题,火山引擎边缘容器团队参考行业做法,结合实践经验,打造火山

展厅设计主要的六大要素

1、从创意开始      展示设计的开始必须创意在先。根据整体的风格思路进行创意,首先要考虑的是主体的造型、大小高度位置以及它和周围展厅的关系。另外其他道具设计制作与运作方式也必须在创意中有明确的体现。      2、平面感      平面感是指对展示艺术设计平面图纸审美和功能两个方面理性的感觉认识。它是三维空间设计认识的基础,也是施工的重要依据。展示空间的设计应先在展场环境的平面

理解什么是DSR,嗅探器视角下的IP和MAC地址识别(C/C++代码实现)

网络嗅探器是监控和分析网络流量的一种工具,它能够捕获数据包并提取出关键的信息,比如IP地址和MAC地址。 网络嗅探器工作原理基于网卡的工作模式。正常情况下,网卡只处理发送给它的数据包,忽略其他数据。但是,如果将网卡设置为“混杂模式”,那么它可以接收到网络上所有的数据包,而不仅仅是发给它的数据包。网络嗅探器就是利用了这一特性来捕获网络上的数据交换。 数据包是网络通信的基本单位,包含了传输数据和控

[最全]设计模式实战(一)UML六大原则

UML类图 UML类图是学习设计模式的基础,学习设计模式,主要关注六种关系。即:继承、实现、组合、聚合、依赖和关联。 UML类图基本用法 继承关系用空心三角形+实线来表示。实现接口用空心三角形+虚线来表示。eg:大雁是最能飞的,它实现了飞翔接口。 关联关系用实线箭头来表示。当一个类"知道"另一个类时,可以用关联。eg:企鹅需要"知道"气候的变化,需要"了解"气候规律。 聚合关

[240623] ShellScript 视角下的 Ruby | Tiobe 2406 - C++ 超 C;Fortran 老当益壮

目录 @[TOC](目录)ShellScript 视角下的 Ruby引言Ruby 用于 Shell 脚本的优势结论 Tiobe 2406 - C++ 超 C;Fortran 老当益壮 ShellScript 视角下的 Ruby 引言 Ruby 常与 Rails 框架联系在一起,导致许多人忽略了它本身的强大。Ruby 是一门功能丰富且完整的语言,在编写 Shell 脚本方面甚至优于 P

WHAT - NextJS 系列之六大特性

目录 一、介绍二、特性RoutingRenderingData FetchingStylingOptimizationsTypeScript 官方文档:https://nextjs.org/docs 一、介绍 Next.js is a React framework for building full-stack web applications. You use React

JS六大数据类型

js的六大数据类型

ChatGPT-4o也参加高考了,还写了六大考卷的全部作文! |【WeThinkIn出品】

写在前面 【WeThinkIn出品】栏目专注于分享Rocky的最新思考与经验总结,包含但不限于技术领域。欢迎大家一起交流学习💪 欢迎大家关注Rocky的公众号:WeThinkIn 欢迎大家关注Rocky的知乎:Rocky Ding AIGC算法工程师面试面经秘籍分享:WeThinkIn/Interview-for-Algorithm-Engineer欢迎大家Star~ 获取更多AI行

iOS 设计模式面试题(编程中的六大设计原则?)

编程中的六大设计原则? 1.单一职责原则 通俗地讲就是一个类只做一件事 CALayer:动画和视图的显示。UIView:只负责事件传递、事件响应。 2.开闭原则 对修改关闭,对扩展开放。 要考虑到后续的扩展性,而不是在原有的基础上来回修改 3.接口隔离原则 使用多个专门的协议、而不是一个庞大臃肿的协议 UITableviewDelegateUITableViewDataSource

如何利用数据仓库进行业务分析:一名大数据工程师的视角

在大数据时代,数据的有效利用对企业的成功至关重要。 本文将基于上面的流程图,详细介绍如何利用数据仓库进行业务分析,并提供实际的例子和代码演示,以帮助读者更好地理解和应用相关技术。 数据仓库的基本流程 上图展示了一个典型的数据仓库流程,包括以下几个主要环节: 业务系统数据接入:业务系统等数据源将数据导入数据仓库。数据仓库建设:规划、建设数据仓库,包括数据模型设计和数据集成。数据分析需求获