Sora到底有多强?

2024-03-06 02:12
文章标签 到底 有多强 sora

本文主要是介绍Sora到底有多强?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

北京时间2月16日凌晨,OpenAI发布文本生成视频的AI模型Sora,瞬时刷屏科技圈,成为2024年开年“顶流”。

官方称,Sora只需文本就能自动生成高度逼真和高质量的视频,且时长突破1分钟。这是继文本模型ChatGPT和图片模型Dall-E之后,OpenAI在视频领域的另一个颠覆性创造。

Sora之前,并不是没有AI生成视频的应用,Runway、Pika、Stable Video Diffusion等公司百舸争流。但如今Sora横空出世,这些公司瞬间变得暗淡无光。

被称是“降维打击”的Sora到底有多强?

“一位时尚的女人走在东京的街道上,街道上到处都是温暖的发光霓虹灯和动画城市标志。她身穿黑色皮夹克,红色长裙,黑色靴子,背着一个黑色钱包。她戴着墨镜,涂着红色口红。她自信而随意地走路。街道潮湿而反光,营造出五颜六色的灯光的镜面效果。许多行人四处走动。”

这是OpenAI在官网介绍视频模型 Sora出现的第一组提示词。这段由Sora自主生成的长达59秒的一镜到底的视频,也是其展现给公众的第一个成果,随即引爆全球网络,实现爆发式的传播发酵。

作为一款视频生成模型,Sora继承了DALL-E 3的画质和遵循指令能力,可以根据用户的文本提示创建逼真的视频。

与其他视频生成模型相比,Sora能够根据提示词生成60s的连贯视频,这对于平均只能生成“4s”视频的全行业来说,造成了“碾压式”的冲击。

此外,Sora在采样的灵活性、视频拓展、镜头语言等方面,也远远领先于其他模型。

在对Sora生成的视频表示震惊之余,各路大佬们也开始纷纷表态:有人吃瓜感慨“gg humans”,竞争对手接受压力并参与“游戏”(game on);技术大牛深扒核心技术称Sora是一个“数据驱动的物理引擎”(Sora is a data-driven physics engine)......

尽管Sora生成的视频远远高出行业的平均水平,但依旧存在某些局限性。技术报告提到,Sora还存在不准确的物理建模和非自然物体“变形”的例子,以及在模拟对象和多个角色之间的复杂交互,对模型来说通常具有挑战性等。

自谷歌2017年发布Transformer网络结构以来,仅用五年多时间全球已迅速成长出庞大的大模型技术群,衍生出涵盖各种技术架构、各种模态、各种场景的大模型家族。

从文字工作者恐失业的文本大模型 ChatGPT,到设计师恐失业的图片生成模型 Stable Diffusion 和 Midjourney,技术的发展日新月异,大模型正在改变着各行各业。

如今,AI生成视频正迎来爆发期。

此次Sora横空出世,无疑是给AI生成视频添了一把火。

事实上,AI生成视频早已断断续续火了一段时间。2023 年可以看作是 AI 视频爆发的一年。年初,还没有公开的文本到视频模型。仅仅 12 个月后,数十种视频生成产品开始投入使用,全球数百万用户根据文本或图像提示创建短片。

根据美国VC机构a16z的统计,截止到去年11月,文生视频领域发布相关工具与产品达到了21种。

但此时发布产品的多为初创企业,拥有相机平移和变焦以及动作控制功能的在少数,这意味着无法生成拥有更多视觉深度和动态效果的复杂视频。

此外,生成视频的时间也较短,大多在3秒左右,与其说生成的是视频,不如说生成的是GIF动图。

Sora的发布,意味着新一轮人工智能革命的开端,我国AI科技处于怎样的水平,中美之间的差距有多大呢?

去年5月,科技部发布的《中国人工智能大模型地图研究报告》显示,中国研发的大模型数量排名全球第二,10亿参数规模以上的大模型已发布79个,目前与美国保持同步增长态势。

截至2023年6月底,全球人工智能领域独角兽中,108家来自中国,占全球总数的37%。

国内玩家也在积极下场布局AI生成视频。

字节跳动于去年11月18日推出了文生视频模型PixelDance。基础模式下,用户需要提供一张指导图片+文本描述,PixelDance 就可以生成有高度一致性且有丰富动态性的视频。

阿里紧随其后也上线了Animate Anyone模型,需要一张人物照片,再配合骨骼动画引导,就能生成自然的动画视频。

23年末,百度发布了文生视频工具“度加剪辑”,号称“可以一键获取最新热点、ai生成文案、一键生成视频”。百度文心大模型的类似功能则在内测中,不久后会以插件形式开放。

Sora的发布,能否鞭策中国企业进一步突破技术难关,我们不妨拭目以待。

Sora发布前,我国影视行业已经在应用文生视频,作为拍摄辅助。AI可以低成本快速产出分镜,用简单动画预演出演员走位、取景、摄影机角度与运动大方向,提高拍摄效率。而当AI的精细度可以直接参与后期制作,带给行业的冲击是颠覆性的。

关于相关从业者是否会被AI取代,网上争论不断。不过对于Sora这样的复杂系统,人是不可替代的生产力要素,未来,做“工具人”,不如做创造和使用工具的人。

据统计,全球1/7的人工智能顶尖人才在中国,不过相较于产业的迅猛发展,人工智能人才缺口还是非常大。根据中关村产业研究院测算,到2025年,预计北京AI人才需求量为54万人,缺口将达37万,特别是急缺计算理论、人机交互、安全与隐私、计算机系统等方面的顶尖学者。

人工智能也成为近年来新增开设数量最多的专业之一。2018年教育部批准设立人工智能本科专业。经过四轮增开,截至2023年共有499所高校设置人工智能本科专业,其中不乏清华、北大、浙大、复旦等顶尖院校。

AI技术大势滚滚而来,无论于国家,于企业,还是于个人,主动拥抱或许是最好的选择。

【专题】“王炸”模型Sora爆火,AI视频再次颠覆

特别声明

这篇关于Sora到底有多强?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/778552

相关文章

【H2O2|全栈】Markdown | Md 笔记到底如何使用?【前端 · HTML前置知识】

Markdown的一些杂谈 目录 Markdown的一些杂谈 前言 准备工作 认识.Md文件 为什么使用Md? 怎么使用Md? ​编辑 怎么看别人给我的Md文件? Md文件命令 切换模式 粗体、倾斜、下划线、删除线和荧光标记 分级标题 水平线 引用 无序和有序列表 ​编辑 任务清单 插入链接和图片 内嵌代码和代码块 表格 公式 其他 源代码 预

Open-Sora代码详细解读(1):解读DiT结构

Diffusion Models专栏文章汇总:入门与实战 前言:目前开源的DiT视频生成模型不是很多,Open-Sora是开发者生态最好的一个,涵盖了DiT、时空DiT、3D VAE、Rectified Flow、因果卷积等Diffusion视频生成的经典知识点。本篇博客从Open-Sora的代码出发,深入解读背后的原理。 目录 DiT相比于Unet的关键改进点 Token化方

Linux block_device gendisk和hd_struct到底是个啥关系

本文的源码版本是Linux 5.15版本,有图有真相: 1.先从块设备驱动说起 安卓平台有一个非常典型和重要的块设备驱动:zram,我们来看一下zram这个块设备驱动加载初始化和swapon的逻辑,完整梳理完这个逻辑将对Linux块设备驱动模型有深入的理解。 zram驱动加载的时候会调用zram_add函数,源码如下: 1887/*1888 * Allocate and initia

MVVM到底是什么

MVVM到底是什么 文章目录 MVVM到底是什么一、MVVM是什么二、为什么这么定义1. 分离关注点2. 提高可维护性3. 数据绑定和事件驱动4. 支持前端框架的发展 三、底层逻辑1. ViewModel层2. 数据绑定3. 事件驱动4. 响应式系统 四、扩展与高级技巧1. 组件化开发2. 双向数据绑定3. 计算属性和侦听器4. 插槽

我们在学习Spark的时候,到底在学习什么?

我必须要说,Spark这个框架出现之前,我对很多大数据领域的框架源码甚至都是嗤之以鼻的。 很多小伙伴在群里或者私信留言问我关于Spark的学习路径问题。 Spark发展至今,应该说已经非常成熟了。是大数据计算领域不得不学习的框架。尤其是Spark在稳定性和社区发展的成熟度方面,基本可以吊打其他的大数据处理框架。 我之前发过一篇关于阅读Spark源码的文章:《Spark源码阅读的正确打开方式》

【硬刚大数据】我们在学习Flink的时候,到底在学习什么?

⭐⭐欢迎关注博客主页:https://blog.csdn.net/u013411339 ⭐⭐欢迎点赞 👍 收藏 ⭐留言 📝 ,欢迎留言交流! ⭐⭐本文由【王知无】原创,首发于 CSDN博客! ⭐⭐本文首发CSDN论坛,未经过官方和本人允许,严禁转载! 本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的面试部分补充。 这是一篇指南和大纲性质的文章。

【硬刚大数据】我们在学习Spark的时候,到底在学习什么?

欢迎关注博客主页:https://blog.csdn.net/u013411339 欢迎点赞、收藏、留言 ,欢迎留言交流!本文由【王知无】原创,首发于 CSDN博客!本文首发CSDN论坛,未经过官方和本人允许,严禁转载! 本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的面试部分补充。 很多小伙伴在群里或者私信留言问我关于Spark的学习路径问题。

WIFI贴项目到底是不是“骗局”呢?由我来揭秘!

各位亲爱的朋友们,大家好!我是你们的老朋友鲸天科技千千,一直在这片互联网的热土上耕耘。相信你们对我都不会陌生,因为我常常分享一些互联网上的新奇项目和实用技巧。如果你对我的内容感兴趣,别忘了点个关注哦! 首先很多人交了几千几万的学费入局,我想说你真的被割韭菜了,这个项目本身没什么技术性,都是赚广告收益,收加盟代理费就是在割韭菜,共享经济本身互利互惠,推广员在赚的同时公司也在其中谋利。 共享WiF

到底什么样的程序员算全栈程序员

        与其他互联网热词一样,”全栈“程序员也是英译过来的,英文全文是:Full-Stack Developer,你想啊,中国人民怎么会用客栈的栈、堆栈的栈来形容工程师呢?   谈论一个概念,首先得给伊个定义,一般来说,全栈工程师就是指技术多面手,掌握多种技能,能够独立完成 non-trivial application 的人。non-trivial 怎么解呢?就是有一定复杂度

java锁的到底是锁的什么??

锁住的内容 锁代码块 对多个线程使用的多个此类A的代码加锁,即使多个线程多个对象也 会只有一个线程进入到此代码块,与对象个数,线程个数无关。 实现方式 (1)类代码块  public  void a(){ synchronized(A.class){} } (2)静态lock对象 static  Lock lock=new ReetrantLock(); (3)静态方法  public