正确看待OpenAI大模型Sora

2024-02-17 10:04

本文主要是介绍正确看待OpenAI大模型Sora,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

    2月16日凌晨,OpenAI发布了文生视频模型Sora。官方是这样描述的:Sora is an AI model  that can create realistic and imaginative scenes from text instructions.Sora一个人工智能模型,它可以根据文本指令创建逼真和富有想象力的场景。Sora能够在同时保持视觉质量和遵循用户提示的情况下,生成长达一分钟的视频。Sora 与 ChatGPT 一样采用 Transformer 架构,并使用了 DALL-E 3 中的重述技术。除了文本生成视频之外,Sora 还能根据图像生成视频,并能准确地对图像内容进行动画处理。也能提取视频中的元素,对其进行扩展或填充缺失的帧。

    几乎在同一时间,OpenAI也发布了关于Sora相关的技术报告:《Video generation models as world simulators》视频生成模型:构建虚拟世界的模拟器,这篇技术报告的侧重点在于将所有类型的视觉数据转化为统一表示的方法,该方法能够对生成模型进行大规模训练,以及对Sora的能力和局限性进行定性评估,而Sora的模型和实现细节未包含在报告中。

     很多的权威媒体或自媒体过分夸大了“Sora的威力”,各种标题党层出不穷,但我认为Sora到目前为止仅为视频生成提供一种新的解决方案,就像ChatGPT,将来作为一种工具服务于人类,而不必过分夸大。对于所处这个行业的技术人员,应该跟随这个趋势,研究Sora的内涵,追赶前沿技术。

     具体的我们看一下报告的内容。报告中指出,人们已经使用各种方法研究了视频数据的生成建模,包括循环网络(recurrent networks)、生成对抗网络(generative adversarial networks)、自回归变换器(autoregressive transformers)和扩散模型(diffusion models)。这些工作通常集中在视觉数据的狭窄类别、较短的视频或固定大小的视频上。Sora是一个视觉数据的通用模型——它可以生成跨越不同时长、宽高比和分辨率的视频和图像,最长可达一分钟的高清视频。以下为报告引用的一些学术研究文章。

    我们来看看文生视频的原理:

1.将视觉数据转化为图块(patch)

我们从大型语言模型中获得灵感,这些模型通过在互联网规模数据上训练获得通用能力。大型语言模型的成功在一定程度上得益于使用能够统一文本的多样化(如代码、数学和各种自然语言)的标记。在这项工作中,我们考虑视觉数据的生成模型如何继承这些优势。与大型语言模型拥有文本标记一样,Sora拥有视觉图块。先前的研究已经表明,图块是视觉数据模型的一种有效表示。我们发现,图块是一种高度可扩展且有效的表示,用于在各种类型的视频和图像上训练生成模型。

参考文献如下:

2.训练一个降低视觉数据维度的网络

3.时空潜在图块处理

基于patch,使得Sora能够训练不同分辨率、持续时间和宽高比的视频和图像。在推理时,通过在适当大小的网格中排列随机初始化的patches来控制生成视频的大小。

在图像和视频生成的早期方法中,通常会将视频调整大小、裁剪或修剪到标准大小——例如,4秒长的视频,分辨率为256x256。但是如果直接在原始数据上进行训练有几个好处:

(1)采样灵活性

Sora能够采样宽屏1920x1080p视频、竖屏1080x1920p视频以及介于两者之间的所有内容。它还允许我们在生成全分辨率内容之前,快速原型设计较小尺寸的内容——所有这些都使用同一个模型。

(2)提高了构图和布局

通过实证发现,在其原生宽高比上训练视频能够改进构图和布局。将Sora与模型的另一个版本进行比较,该版本将所有训练视频裁剪为正方形,这是训练生成模型时的常见做法。在正方形裁剪上训练的模型(左侧)有时会生成主题只部分可见的视频。相比之下,Sora的视频(右侧)具有改进的构图。

4.语言理解

训练文本到视频生成系统需要大量带有对应文本标题的视频。Sora应用了在DALL-E 3中引入的重新标题技术(re-captioning technique)到视频上。首先训练一个高度描述性的标题生成模型,然后使用它为我们训练集中的所有视频生成文本标题。基于高度描述性视频标题的训练提高了文本保真度以及视频的整体质量。

Sora除了能够实现文本到视频的输出,也可以通过其他输入,如预先存在的图像或视频,来进行提示。这种能力使得Sora能够执行广泛的图像和视频编辑任务——创建完美循环的视频、为静态图像添加动画、向前或向后扩展视频等。

挑选了官网有意思的两个demo,其一个视频截图体现了视频连接:

另外一个视频体现了视频编辑:

当然Sora目前还存在许多局限性。例如,它不能准确地仿真许多基本交互的物理,如玻璃破碎。其他交互,如吃食物,并不总是产生正确的物体状态变化。报告中也列举了模型的其他常见失败模式——例如,长时间样本中发展出的不连贯性或物体的自发出现。

这篇关于正确看待OpenAI大模型Sora的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/717436

相关文章

0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型的操作流程

《0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeekR1模型的操作流程》DeepSeekR1模型凭借其强大的自然语言处理能力,在未来具有广阔的应用前景,有望在多个领域发... 目录0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型,3步搞定一个应

Deepseek R1模型本地化部署+API接口调用详细教程(释放AI生产力)

《DeepseekR1模型本地化部署+API接口调用详细教程(释放AI生产力)》本文介绍了本地部署DeepSeekR1模型和通过API调用将其集成到VSCode中的过程,作者详细步骤展示了如何下载和... 目录前言一、deepseek R1模型与chatGPT o1系列模型对比二、本地部署步骤1.安装oll

Spring AI Alibaba接入大模型时的依赖问题小结

《SpringAIAlibaba接入大模型时的依赖问题小结》文章介绍了如何在pom.xml文件中配置SpringAIAlibaba依赖,并提供了一个示例pom.xml文件,同时,建议将Maven仓... 目录(一)pom.XML文件:(二)application.yml配置文件(一)pom.xml文件:首

如何在本地部署 DeepSeek Janus Pro 文生图大模型

《如何在本地部署DeepSeekJanusPro文生图大模型》DeepSeekJanusPro模型在本地成功部署,支持图片理解和文生图功能,通过Gradio界面进行交互,展示了其强大的多模态处... 目录什么是 Janus Pro1. 安装 conda2. 创建 python 虚拟环境3. 克隆 janus

本地私有化部署DeepSeek模型的详细教程

《本地私有化部署DeepSeek模型的详细教程》DeepSeek模型是一种强大的语言模型,本地私有化部署可以让用户在自己的环境中安全、高效地使用该模型,避免数据传输到外部带来的安全风险,同时也能根据自... 目录一、引言二、环境准备(一)硬件要求(二)软件要求(三)创建虚拟环境三、安装依赖库四、获取 Dee

DeepSeek模型本地部署的详细教程

《DeepSeek模型本地部署的详细教程》DeepSeek作为一款开源且性能强大的大语言模型,提供了灵活的本地部署方案,让用户能够在本地环境中高效运行模型,同时保护数据隐私,在本地成功部署DeepSe... 目录一、环境准备(一)硬件需求(二)软件依赖二、安装Ollama三、下载并部署DeepSeek模型选

Golang的CSP模型简介(最新推荐)

《Golang的CSP模型简介(最新推荐)》Golang采用了CSP(CommunicatingSequentialProcesses,通信顺序进程)并发模型,通过goroutine和channe... 目录前言一、介绍1. 什么是 CSP 模型2. Goroutine3. Channel4. Channe

Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)

《Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)》:本文主要介绍Python基于火山引擎豆包大模型搭建QQ机器人详细的相关资料,包括开通模型、配置APIKEY鉴权和SD... 目录豆包大模型概述开通模型付费安装 SDK 环境配置 API KEY 鉴权Ark 模型接口Prompt

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行