OpenAI全新发布的Sora,到底意味着什么?

2024-02-18 14:04

本文主要是介绍OpenAI全新发布的Sora,到底意味着什么?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

16日凌晨,OpenAI发布了文本视频的工具(text-do-video)Sora,整个世界再次被震撼。
Sora的出现,到底意味着什么?

目录

  • Sora的背景与概述
    • Sora是什么?
    • 能为我们做些什么?
    • 存在的一些问题
  • 文本视频模型效果展示
    • 一年前AI生成的视频
    • 一位24岁女性在摩洛哥马拉喀什的魔法时刻眨眼的极端特写镜头
    • 一堆金毛巡回犬的幼崽在雪地里玩耍,它们的头从雪中探出,满是雪花
    • 摄像机围绕一大堆展示不同节目的复古电视旋转
    • 一个机器人在赛博朋克设定中的生活故事。
    • 纽约城像亚特兰蒂斯一样沉没。鱼、鲸鱼、海龟和鲨鱼在纽约街道中游动。
    • 一个形状如同巨人的巨大云朵盘踞在地球上方,向地球发射雷电。
  • Sora的基本原理
    • 自我学习物理规律
    • 世界模型
  • 通用人工智能

Sora的背景与概述

Sora是什么?

简单来说,就是OpenAI用GPT的能力来做视频文本对齐,通过将多个高分率视频素材进行降维处理,然后进行密集训练,最后达到一个想看什么就生成什么视频的效果。

Sora的底层同样采用的是Transformer架构,建立在过去的DALL·E和GPT的研究基础之上,采用了DALL·E3的重述技术,所以能更好的遵循用户的文本描述,并且也有极强的扩展性。

在这里插入图片描述

能为我们做些什么?

Sora能为我们做什么呢?我们只需要一段文本描述,就可以生成60秒1080P的视频,不光场景细腻、角色的表情也栩栩如生。

此外,Sora还能从静态图像中生成动画或拓展现有视频,从而创造多个画面,并且能够保持角色和视觉风格的一致性。

在这里插入图片描述

存在的一些问题

  1. 该模型会混淆提示的空间细节,并且难以准确模拟复杂场景中的物理现象。如下图,老人吹蜡烛前后,火苗没有丝毫变化。

在这里插入图片描述

  1. 它无法理解一个事例中包含的因果关系,比如酒杯摔碎,但是液体的流动和玻璃的破裂关系。
    在这里插入图片描述

文本视频模型效果展示

一年前AI生成的视频

在这里插入图片描述

一位24岁女性在摩洛哥马拉喀什的魔法时刻眨眼的极端特写镜头

在这里插入图片描述

一堆金毛巡回犬的幼崽在雪地里玩耍,它们的头从雪中探出,满是雪花

在这里插入图片描述

摄像机围绕一大堆展示不同节目的复古电视旋转

在这里插入图片描述

一个机器人在赛博朋克设定中的生活故事。

在这里插入图片描述

纽约城像亚特兰蒂斯一样沉没。鱼、鲸鱼、海龟和鲨鱼在纽约街道中游动。

在这里插入图片描述

一个形状如同巨人的巨大云朵盘踞在地球上方,向地球发射雷电。

在这里插入图片描述

Sora的基本原理

OpenAI官方公布的Sora的技术文档,它没有透露太多关于Sora的技术细节,但大致介绍了Sora的基本原理:简单来说,Sora就是通过大量的学习视频来理解现实世界的动态变化,并用计算机视觉技术来模拟这些变化,并创造出全新的视觉内容。换句话说,就是Sora它所学习的不仅仅是视频里面的画面、像素点之类的,它同时也在学习视频里面那个世界的“物理规律”。

在这里插入图片描述

自我学习物理规律

听上去可能让人觉得难以费解,打个比方,比如你咬一口食物,食物这个时候应该出现一个咬痕,这就是物理规律。

如果咬完食物,它还是完整的状态,那它就不符合物理规律,现在大部分的视频软件并不能理解这些所谓的物理规律,它们所处理的对象只是画面,而不是画面里面的食物和人,以及它们之间的关系。

但是Sora似乎能够理解它们之间的关系,当Sora学习人咬食物的视频时,它记住的不仅仅是食物和嘴在一起的具体画面,还有咬过就会留痕的这个物理规律,当它以后有生成视频的时候,一旦涉及到咬这个动作,Sora就会知道下面应该会出现一个咬痕了。

世界模型

这是用Sora生成的一个咬食物的视频,用的是先记忆,再预测,这种理解世界的方式,是人类理解世界的方式,这种方式还有个名字,它被称为世界模型。

在这里插入图片描述
那什么叫世界模型,举个例子,你的记忆当中一定知道,一杯咖啡大概有多重,所以当你拿起一杯咖啡的时候,大脑准确预测说应该用多大的力,于是杯子用那个力就会被顺利拿起来,人都不会有意识的,但是如果这个杯子里面,碰巧没有咖啡呢,你就会用很大的力,去拿这个很轻的杯子,这个时候你的手就会立刻感觉不对,但杯子已经飞出去了,不过没关系,很快在你的记忆当中就会就会加上一条:杯子也有可能空的时候,于是,下次再去预测杯子重和不重的时候,你就不会太乱使力。

你做的事情越多,你的大脑里就会形成越复杂的世界模型,用于更准确的预测这个世界的反应,这就是人类与世界交互的方式:世界模型。

通用人工智能

Sora的技术文档里面有这么一句话,我们的结果表明,扩展视频生成模型是朝着构建通用物理世界模拟器迈进的有希望的模型,这样感觉很复杂,它实际是什么意思呢?

它的意思就是,OpenAI它最终想要做的,不是一个文本视频的工具,而是一个通用的物理世界模拟器,他们真正想要做的是为真实世界建模,而Sora只是验证了这条道路可行。

Sora的出现可能意味着,通用人工智能,也就是所谓的AGI正在加速到来,这才是OpenAI真正想做的事情。

为什么Sam Altman要筹集七万亿美金来重塑全球AI芯片的基础设施,7万亿相当于全球GDP的10%,它能买下2.5个微软,4个英伟达,或者11.5个特斯拉,为什么?

因为通往通用人工智能的道路上,除了要算法,还需要大量的算力,Sora来了,通用人工智能还会远吗?

这个世界正在发生着难以想象的变化,看似很远,但又瞬间近在眼前。

这篇关于OpenAI全新发布的Sora,到底意味着什么?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/721382

相关文章

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

高效+灵活,万博智云全球发布AWS无代理跨云容灾方案!

摘要 近日,万博智云推出了基于AWS的无代理跨云容灾解决方案,并与拉丁美洲,中东,亚洲的合作伙伴面向全球开展了联合发布。这一方案以AWS应用环境为基础,将HyperBDR平台的高效、灵活和成本效益优势与无代理功能相结合,为全球企业带来实现了更便捷、经济的数据保护。 一、全球联合发布 9月2日,万博智云CEO Michael Wong在线上平台发布AWS无代理跨云容灾解决方案的阐述视频,介绍了

Vue3项目开发——新闻发布管理系统(六)

文章目录 八、首页设计开发1、页面设计2、登录访问拦截实现3、用户基本信息显示①封装用户基本信息获取接口②用户基本信息存储③用户基本信息调用④用户基本信息动态渲染 4、退出功能实现①注册点击事件②添加退出功能③数据清理 5、代码下载 八、首页设计开发 登录成功后,系统就进入了首页。接下来,也就进行首页的开发了。 1、页面设计 系统页面主要分为三部分,左侧为系统的菜单栏,右侧

maven发布项目到私服-snapshot快照库和release发布库的区别和作用及maven常用命令

maven发布项目到私服-snapshot快照库和release发布库的区别和作用及maven常用命令 在日常的工作中由于各种原因,会出现这样一种情况,某些项目并没有打包至mvnrepository。如果采用原始直接打包放到lib目录的方式进行处理,便对项目的管理带来一些不必要的麻烦。例如版本升级后需要重新打包并,替换原有jar包等等一些额外的工作量和麻烦。为了避免这些不必要的麻烦,通常我们

禅道Docker安装包发布

禅道Docker安装包发布 大家好, 禅道Docker安装包发布。 一、下载地址 禅道开源版:   /dl/zentao/docker/docker_zentao.zip  备用下载地址:https://download.csdn.net/download/u013490585/16271485 数据库用户名: root,默认密码: 123456。运行时,可以设置 MYSQL_ROOT_P

C++编程:ZeroMQ进程间(订阅-发布)通信配置优化

文章目录 0. 概述1. 发布者同步发送(pub)与订阅者异步接收(sub)示例代码可能的副作用: 2. 适度增加缓存和队列示例代码副作用: 3. 动态的IPC通道管理示例代码副作用: 4. 接收消息的超时设置示例代码副作用: 5. 增加I/O线程数量示例代码副作用: 6. 异步消息发送(使用`dontwait`标志)示例代码副作用: 7. 其他可以考虑的优化项7.1 立即发送(ZMQ_IM

【H2O2|全栈】Markdown | Md 笔记到底如何使用?【前端 · HTML前置知识】

Markdown的一些杂谈 目录 Markdown的一些杂谈 前言 准备工作 认识.Md文件 为什么使用Md? 怎么使用Md? ​编辑 怎么看别人给我的Md文件? Md文件命令 切换模式 粗体、倾斜、下划线、删除线和荧光标记 分级标题 水平线 引用 无序和有序列表 ​编辑 任务清单 插入链接和图片 内嵌代码和代码块 表格 公式 其他 源代码 预

风格控制水平创新高!南理工InstantX小红书发布CSGO:简单高效的端到端风格迁移框架

论文链接:https://arxiv.org/pdf/2408.16766 项目链接:https://csgo-gen.github.io/ 亮点直击 构建了一个专门用于风格迁移的数据集设计了一个简单但有效的端到端训练的风格迁移框架CSGO框架,以验证这个大规模数据集在风格迁移中的有益效果。引入了内容对齐评分(Content Alignment Score,简称CAS)来评估风格迁移

Eclipse发布Maven项目到tomcat,无法加载到lib文件夹下的jar包

BMS 解决方法: 当我们发布web项目到tomcat时,访问地址时会报一个classnotfound的错误,但是eclipse中的项目中都已经添加了相应的类,有一种比较容易犯的错误是,你没有把额外所需的jar包加到tomcat中的lib文件夹中,在这里介绍一种在项目中直接添加jar包到lib目录下:  右键已创建的web项目——properties属性——点击Deployment Assem

1-3 微信小程序协同工作和发布

协同工作和发布 🥟🥞以权限管理需求为例 一个项目组,一般有不同的岗位,不同角色的员工同时参与项目成员 流程 成员管理的两个方面 不同项目成员对应的权限 版本