Sora一出 哪里又要裁员了?

2024-02-20 13:36
文章标签 裁员 一出 sora

本文主要是介绍Sora一出 哪里又要裁员了?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

        

        上班前夕迎来大新闻,那就是Sora了,Sora是什么,有什么牛逼之处,怎么实现的,我们跟着官方文档透露出来的一点点信息,简单的捋一捋。

一、Sora是什么

        官方给出的定义是:世界模拟器。这很明显有夸大的成分,实际一点来说Sora就是OpenAI用GPT的能力将视频文本对齐,通过将多个高分辨率视频素材进行降维处理,然后密集训练,最后大力出奇迹,达到你想看什么就生成什么视频的效果。

二、Sora为什么受追捧

        第一个牛逼之处是持久。虽然文生视频已不是新鲜事,但相比于Sora,此前的文生视频大模型所能生成的视频时间很短。比如去年Pika Labs发布的Pika 1.0曾轰动一时,但只能生成3秒以内的视频。而Sora生成的视频足足1分钟,基本达到了实际使用的要求,毕竟某音上很多小姐姐的视频还达不到1分钟。

        第二就是连贯。视频内容的语义连贯性已经非常完美,前景、背景的镜头感和融合程度非常好,甚至连光影、物理碰撞都有模有样。它已经很好的模拟了真实世界中的物理规则,已经不是不是文生图这样的小玩意儿了,来看个例子吧。

title_0

三、训练过程

        关于算法的信息,作者只公布了一点点信息,任何细节都没有透露,我们只能根据只言片语大概得还原一下训练过程。

1.把图像数据转化为 patches(也许可以翻译成面片),patches是从LLM里面得到的灵感,相当于LLM中的token,作者使用Visual Patches来统一不同尺寸的视频。因为视频就是图片帧序列,Visual Patches的的维度应该和视频帧数相关。

2.为了统一不通过尺度和时长的视频,作者训练了一个视频压缩网络,将视频压缩成统一且低纬度的特征表示。

3.将2中的特征送入一个diffusion transformer模型(具体结构未知)中进行编解码,编码阶段得到类似Transformer中token的Spacetime latent patches(时空隐补丁?实在不会翻译),解码阶段生成“干净的”patches。既然是diffusion 模型,编解码的过程中可定会掺入提示词的token和随机马赛克。

四、视频数据

1.使用大分辨率视频进行训练:第一个好处:抽样的灵活性,Sora可以采样宽屏1920x1080p视频,垂直1080x1920视频以及介于两者之间的所有视频。所有的尺寸都使用相同的模型。

sampling_0

sampling_2

2.使用完整的视频进行训练:作者发现这样可以改善构图,使视频的语义更统一,传统做法是将最视频进行随机的裁剪成正方形或者矩形,这样有可能丢掉很多内容,是语义不完整,像下面着这样,左面的是传统的财裁剪方式,右面是作者使用的方式。

sampling_3

sampling_4

五、文本数据

1.训练了一个高度描述性的字幕模型,然后使用它为训练集中的所有视频生成文本字幕。作者发现,对高度描述性的视频字幕进行训练可以提高文本保真度以及视频的整体质量。

2.利用GPT将简短的用户提示转换为更长的详细字幕,并将其发送到视频模型。这使得Sora能够准确地按照用户提示生成高质量的视频。

        关于模型和数据的介绍官方只放出这么多,其实也没有什么颠覆性的创新,也许是​压箱底的东西没有拿出来?但从这些信息来看,只能用四个字来形容​:力大砖飞

六、还能做什么

        除了文本生成视频,Sora还有很多玩法:

        (1)图片+prompt生成视频

prompting_1

        (2)扩展视频:Sora还能够在时间上向前或向后扩展视频。下面是四个视频,它们都是从一个生成的视频片段开始向后扩展的。因此,这四个视频的开始都不同,但四个视频的结局都是一样的。

extend_1

extend_2

extend_4

        (3)编辑视频:根据prompt修改视频的内容

base

0

        (4)拼接视频:Sora可以在两个输入视频之间进行插帧,在具有完全不同主题和场景构图的视频之间创建无缝过渡。在下面的例子中,中间的视频在左边和右边对应的视频之间插入。

a0

a1

a2

七、涌现的能力

        除此之外Sora还有许多有趣的突发能力,类似于“涌现”。

        比如Sora可以生成带有动态摄像机运动的视频。随着摄像机的移动和旋转,人物和场景元素在三维空间中始终如一地移动。

simulation_0

        Sora经常(虽然不是总是)能够有效地为短期和长期依赖关系建模。例如,模型可以保存人物、动物和物体,即使它们被遮挡或离开了框架。同样,它可以在单个样本中生成同一角色的多个镜头,在整个视频中保持其外观。

simulation_2

        Sora有时可以用简单的方式模拟影响世界状态的行为。例如,画家可以在画布上留下新的笔触,随着时间的推移,或者一个人吃汉堡时留下咬痕。

simulation_5

        Sora还能够模拟人工过程,比如视频游戏。Sora可以在高保真度渲染世界及其动态的同时,用基本策略控制《我的世界》中的玩家。

simulation_6

八、写在最后

        其实Sora还有很多不足,它不能准确地模拟许多基本相互作用的物理过程,比如玻璃破碎。就连官方也给出了“自黑”视频。

        但我认为国人的重点不应该放在Sora生成的视频好或者不好,也不用提多少行业会被颠覆。而是应该冷静思考一下,为什么别人家的公司在这么短的时间内能做出如此震惊世界的产品。

        确实我们在很多领域正以肉眼可见的速度追赶世界一流水平,包括各类顶会也越来越多国人的身影。这是好事,但在我看来,我们在人工智能领域与世界顶尖水平的差距确实越来越远了,无论软件还是硬件。

        努力吧!希望下次引爆朋友圈的是我们自己的公司,而不是盯着别人的东西土嗨。

这篇关于Sora一出 哪里又要裁员了?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/728389

相关文章

Open-Sora代码详细解读(1):解读DiT结构

Diffusion Models专栏文章汇总:入门与实战 前言:目前开源的DiT视频生成模型不是很多,Open-Sora是开发者生态最好的一个,涵盖了DiT、时空DiT、3D VAE、Rectified Flow、因果卷积等Diffusion视频生成的经典知识点。本篇博客从Open-Sora的代码出发,深入解读背后的原理。 目录 DiT相比于Unet的关键改进点 Token化方

到处在裁员,这个行业却在疯狂招人!

1.裁员浪潮不断 8月26日,IBM中国方面确认了将关闭中国研发部门的消息,这一决策涉及员工数量超过1000人。技术迭代浪潮前,哪怕是名企,攻守防退之间的转换也只在一瞬间。AI引发大裁员?这表明IBM正在积极适应技术变革,以提高效率和竞争力,被裁的员工该何去何从? 近期大家也发现,京东开始抓考勤,要减少午休时间一个小时,六点半下班需要提前申请,以提高效率和竞争力。前几年互联网相关的投资非常

国产开源Sora:CogVideoX-5B重磅开源,提升视频生成新高度!

前沿科技速递🚀 2024年8月,智谱AI发布了震撼业界的更新,推出了更大规模、更高质量的开源视频生成模型——CogVideoX-5B。作为目前最先进的文本生成视频模型之一,CogVideoX-5B不但在性能上实现了质的飞跃,还带来了显著的硬件适配性。这次更新不仅让AI开发者和研究者兴奋,也标志着视频生成技术迈向了新高度。 来源:传神社区 01 CogVideoX-5B:大模型开源,

数据分析案例-2024年裁员数据集可视化分析

🤵‍♂️ 个人主页:@艾派森的个人主页 ✍🏻作者简介:Python学习者 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 💬点赞👍🏻 收藏 📂加关注+ 目录 1.项目背景 2.数据集介绍 3.技术工具 4.导入数据 5.数据可视化 小结 源代码 1.项目背景         随着全球经济的不断变化和科技的快速发

Sora到底是什么?

目录 基本概念 什么是Sora?Sora引发全球的关注GPT商店中有Sora GPT吗? Sora的能力 Sora的突出性能OpenAI的Sora有替代品吗?Sora有多厉害?我可以在ChatGPT上使用Sora AI吗? Sora的当前限制 技术上的不足对未来的影响及潜在的失业 如何使用Sora Sora是否向公众开放,是否免费?如何获取Sora的访问权限并使用Sora? Sora的

OpenAI Sora:视频生成领域的创新力量

一、Sora 的诞生与技术原理  Sora 模型由 OpenAI 推出,其诞生背景与人工智能技术在多模态领域的不断探索和发展紧密相关。在视频数据日益丰富和重要的时代,对视频生成模型的需求愈发迫切,Sora 应运而生。 Sora 独特的技术原理使其在众多模型中脱颖而出。在大规模训练方面,它突破了传统的限制,能够处理海量的、各种类型的视频数据,包括不同的持续时间、分辨率和长宽比。这种大规模训练

35岁被裁员,难道是程序员的结局吗?

声明:此篇为 ai123.cn 原创文章,转载请标明出处链接:https://ai123.cn/2179.html 作为一名35岁的Java工程师,技术更新快得就像坐火箭一样,咱们的技术可能一不留神就落伍了。再加上年纪大了,体力可能跟不上挑灯夜战的节奏,而且市场上的年轻程序员们正虎视眈眈,竞争压力山大啊!😣35岁被裁员,难道真的是程序员的结局吗? 别担心,看我如何用AI扭转局势! 🛠

2004年 联想员工亲历联想大裁员:公司不是我的家 (网易裁员事件相关文章)

今天,恐怕是联想历史上规模最大的一次大裁员。我们部门9个人,今天送走了三个,还有三个要转岗,剩下三个。整个研究院走了30多人,转岗20多人。这是我经历的第二次所谓战略性调整,有很多感触,却又好像什么都堵在心里,说不出来。干脆简单记录下这段往事,提醒自己。     [联想精细化裁员]      昨天晚上,研究院秘密召开紧急会议。有20多位“责任经理”参加,我才清楚了整个裁员过程。3月6日启动计

关于裁员思考-素老胡huxingyu

在各位阅读以下内容之前,先摘下你们的有色眼镜,不要带着太多的主观主义,试图辩论或纠正什么,因为很多事情我们说不清对错。同时也不要站在自己习惯的立场上,去做出某些判断,现在你应该是一个中立,带有慈悲心的思考者。 辞退大多是三种情况,一是这个人犯了严重的错误,二是这个人的能力已经无法胜任当前的工作,三是公司为了缩减成本而减少人员(经营不善等原因)。 今天我们要思考的是第三种,也就是因缩减成本而进行

全球首个开源类Sora模型大升级,16秒720p画质电影感爆棚!代码和权重全面开源!

目录 01 视频界开源战士 02 深度解码技术 03 打破闭环,开源赋能 潞晨Open-Sora团队刚刚在720p高清文生视频质量和生成时长上实现了突破性进展! 全新升级的Open-Sora不仅支持无缝生成任意风格的高质量短片,更令人惊喜的是,团队选择继续全部开源。   GitHub地址:https://github.com/hpcaitech/Open-Sora