OpenAI 最新发布的从文本生成视频模型 Sora 炸裂登场，它能根据文字指令创造逼真且富有想象力的场景

本文主要是介绍OpenAI 最新发布的从文本生成视频模型 Sora 炸裂登场，它能根据文字指令创造逼真且富有想象力的场景，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

文章目录

一、前言
二、主要内容
三、总结

🍉 CSDN 叶庭云：https://yetingyun.blog.csdn.net/

一、前言

此页面上的所有视频均由 Sora 直接生成，未经修改。

OpenAI - Sora is an AI model that can create realistic and imaginative scenes from text instructions.

在这里插入图片描述

2024 年 2 月 16 日，OpenAI 发布 AI 视频模型 Sora，60 秒的一镜到底，惊艳的效果生成。AI 视频生成可能要变天？

二、主要内容

能力

OpenAI 正在教授 AI 理解和模拟运动中的物理世界，目标是训练出能帮助人们解决需要与现实世界互动的问题的模型。目前的成果是 Sora，OpenAI 最新发布的从文本生成视频模型。Sora 能够生成长达一分钟的视频，同时保持视觉品质和对用户提示的遵循。

2024 年 2 月 26 日，Sora 即将向红队人员开放，以评估关键领域的潜在危害或风险。OpenAI 还允许一些视觉艺术家、设计师和电影制作人使用，以便获得反馈，进一步优化模型，使其对创意专业人士更有帮助。OpenAI 提早分享他们的研究进展，以便开始与 OpenAI 之外的人们合作并从他们那里获取反馈，同时让公众对即将到来的 AI 能力有所了解。

Sora 能够生成包含多个角色、特定类型的运动以及主题和背景的准确细节的复杂场景。这个模型不仅理解用户在提示中请求的内容，还理解这些事物在物理世界中的存在方式。该模型对语言有着深刻的理解，使其能够准确解读提示并生成表情丰富的引人入胜的角色。Sora 还能在单个生成的视频中创造出多个画面，准确地保持角色和视觉风格的一致性。

当前模型有缺陷。它可能在准确模拟复杂场景的物理现象方面遇到困难，也可能无法理解特定的因果关系。例如，一个人可能会咬一口饼干，但之后，饼干可能不会留下咬痕。该模型也可能会混淆提示的空间细节，例如，将左和右搞混，而且可能难以准确描述随时间发生的事件，比如遵循特定的摄像机轨迹。

安全

在将 Sora 应用于 OpenAI 产品之前，OpenAI 将采取几个重要的安全措施。OpenAI 正在与红队人员（错误信息、仇恨内容和偏见等领域的专家）合作，他们将对模型进行对抗性测试。OpenAI 还在开发一些工具来帮助检测误导性内容，例如检测分类器，它可以分辨出视频是由 Sora 生成的。如果在 OpenAI 产品中部署该模型，OpenAI 计划在未来加入 C2PA 元数据。

除了开发新技术为部署做准备外，OpenAI 还在利用现有的安全方法，这些方法是 OpenAI 为使用 DALL-E 3 的产品建立的，也适用于 Sora。例如，一旦进入 OpenAI 产品，OpenAI 的文本分类器就会检查并拒绝违反 OpenAI 使用政策的文本输入提示，例如要求输入极端暴力、性内容、仇恨图像、名人肖像或他人知识产权的内容。OpenAI 还开发了强大的图像分类器，用于审查生成的每段视频的帧数，以帮助确保视频在播放给用户之前符合使用政策。

OpenAI 将与世界各地的政策制定者、教育工作者和艺术家接触，以了解他们的担忧，并确定这项新技术的积极应用案例。尽管进行了广泛的研究和测试，但 OpenAI 无法预测人们使用这项技术的所有有益方式，也无法预测人们滥用技术的所有方式。这就是为什么 OpenAI 相信，从现实世界的使用中学习，是随着时间的推移创建和发布越来越安全的人工智能系统的重要组成部分。

研究技术

Sora 是一种扩散模型，它从一个看起来像静态噪音的视频开始生成视频，然后通过多个步骤去除噪音，逐渐转换视频。Sora 能够一次性生成整个视频，或延长生成的视频，使其更长。通过让模型一次预见多帧画面，OpenAI 解决了一个具有挑战性的问题，那就是即使主体暂时离开视线，也要确保主体保持不变。

与 GPT 模型类似，Sora 也采用了 Transformer 架构，释放了卓越的扩展性能。OpenAI 将视频和图像表示为更小的数据单元集合，称为 “补丁”（patches），每个补丁类似于 GPT 中的令牌（token）。通过统一数据表示方式，我们可以在比以往更广泛的视觉数据上训练 diffusion transformers，包括不同的持续时间、分辨率和宽高比。

Sora 建立在过去对 DALL-E 和 GPT 模型的研究基础之上。它采用了 DALL-E 3 中的重述技术，即为视觉训练数据生成高度描述性的字幕。因此，该模型能够在生成的视频中更忠实地遵循用户的文字说明。该模型不仅能根据文字说明生成视频，还能根据现有的静止图像生成视频，并能准确、细致地对图像内容进行动画处理。该模型还能提取现有视频，并对其进行扩展或填充缺失的帧。更多信息，请参阅 OpenAI 的技术报告。

Sora 是能够理解和模拟现实世界的模型的基础，我们相信这种能力将是实现 AGI 的重要里程碑。