从 Sora 制作的短片看AI生成视频的优势与局限性解析

2024-04-29 06:04

本文主要是介绍从 Sora 制作的短片看AI生成视频的优势与局限性解析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

在人工智能社区中,OpenAI 的视频生成工具 Sora 以其流畅、逼真的视频效果让人眼前一亮,仿佛领先于竞争对手好几条街。然而,在 Sora 精心策划的首次亮相中,许多细节并未透露,而这些细节则是由一位获得早期使用权限的电影制作人在创建短片“air head”过程中所填补的。

多伦多的数字制作团队 Shy Kids 被 OpenAI 选中,成为为 OpenAI 宣传目的制作短片的几个团队之一。尽管他们在创作过程中拥有相当大的自由度,但在与视觉效果新闻网站 fxguide 的一次采访中,后期制作艺术家 Patrick Cederberg 描述了他“实际使用 Sora” 的经历。

也许对大多数人来说,最重要的一点是:虽然 OpenAI 的帖子让人们以为这些短片几乎是 Sora 完全生成的,但实际上这些都是专业制作的,包括详尽的分镜头脚本、编辑、色彩校正和后期工作,如转描和视觉特效。就像苹果公司说的“用 iPhone 拍摄”,但并未展示摄影棚设置、专业照明和事后的色彩处理一样,Sora 的帖子只是讨论了它能让人们做什么,而不是他们实际如何做到的。

Cederberg 在采访中提供了一些关于使用 Sora 的有趣细节,显示出尽管 Sora 令人印象深刻,但它可能并不像我们想象的那样是一个巨大的飞跃。

控制仍然是目前最令人向往同时也最难以捉摸的东西。他们能做的最接近的事情是在提示中非常详细地描述。例如,解释角色的衣服以及气球的类型,是他们解决连贯性问题的方法,因为从一镜到下一镜、从一次生成到下一次生成,还没有一套完整的控制连贯性的功能。

换句话说,在传统电影制作中很简单的事情,如选择一个角色的衣服颜色,在生成系统中需要复杂的变通方法和检查,因为每个镜头都是独立创建的。这显然可以改变,但目前显然要费力得多。

使用 Sora 生成的输出也必须小心不想要的元素:Cederberg 描述了如何模型会常规生成主角气球头上的脸,或者前面挂着的绳子。如果他们无法通过提示排除这些元素,这些就必须在后期删除,这是另一个耗时的过程。

角色或摄像机的精确时机和动作实际上是不可能的:“在实际生成中,这些不同动作发生的时间有一点时间控制,但不是精确的……这更像是摸黑。” Cederberg 说。

例如,像挥手这样的手势的定时是一个非常大致的、建议驱动的过程,不像手动动画那样。并且向上扫过角色身体的镜头可能不会反映出电影制作者想要的效果——因此,在这种情况下,团队渲染了一个竖向构图的镜头,并在后期进行了剪辑移动。生成的剪辑也常常无缘无故地慢动作。

实际上,使用电影制作的日常语言,如“向右平移”或“跟踪镜头”总是不一致的,这让团队感到相当惊讶。Cederberg 说:“在接触艺术家使用这个工具之前,研究人员并没有真正像电影制作者那样思考。”结果,团队进行了数百次生成,每次10到20秒,最终只使用了少数几次。Cederberg 估计比例是300:1——但当然,我们可能都会对普通拍摄的比例感到惊讶。

团队实际上还制作了一个介绍他们遇到的一些问题的幕后视频,如果你感兴趣的话。像许多与 AI 相关的内容一样,评论中对整个企创业格调相当批评——尽管没有我们最近看到的那个 AI 辅助广告那样尖刻。

最后一个有趣的细节涉及版权:如果你要求 Sora 给你一个“星球大战”剪辑,它会拒绝。如果你试图用“穿着长袍的人在复古未来主义飞船上挥舞激光剑”的方式绕过它,它也会拒绑,因为通过某种机制,它识别出你的企图。它也拒绝进行“Aronofsky 风格的镜头”或“希区柯克变焦”。

一方面,这很有道理。但这也引发了一个问题:如果 Sora 知道这些是什么,是否意味着模型在训练时使用了那些内容,以更好地识别这是侵权行为?OpenAI 保留其训练数据的细节,到了几乎荒谬的程度——正如 CTO Mira Murati 在与 Joanna Stern 的采访中所表现的那样——他们几乎肯定永远不会告诉我们。

至于 Sora 及其在电影制作中的用途,它显然是一个强大而有用的工具,但其位置并不是“完全创造电影”。至少现在不是。就像另一个恶棍曾经名言:“那会在以后。”

这篇关于从 Sora 制作的短片看AI生成视频的优势与局限性解析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/945276

相关文章

Spring AI集成DeepSeek的详细步骤

《SpringAI集成DeepSeek的详细步骤》DeepSeek作为一款卓越的国产AI模型,越来越多的公司考虑在自己的应用中集成,对于Java应用来说,我们可以借助SpringAI集成DeepSe... 目录DeepSeek 介绍Spring AI 是什么?1、环境准备2、构建项目2.1、pom依赖2.2

Deepseek R1模型本地化部署+API接口调用详细教程(释放AI生产力)

《DeepseekR1模型本地化部署+API接口调用详细教程(释放AI生产力)》本文介绍了本地部署DeepSeekR1模型和通过API调用将其集成到VSCode中的过程,作者详细步骤展示了如何下载和... 目录前言一、deepseek R1模型与chatGPT o1系列模型对比二、本地部署步骤1.安装oll

浅析如何使用Swagger生成带权限控制的API文档

《浅析如何使用Swagger生成带权限控制的API文档》当涉及到权限控制时,如何生成既安全又详细的API文档就成了一个关键问题,所以这篇文章小编就来和大家好好聊聊如何用Swagger来生成带有... 目录准备工作配置 Swagger权限控制给 API 加上权限注解查看文档注意事项在咱们的开发工作里,API

Spring AI Alibaba接入大模型时的依赖问题小结

《SpringAIAlibaba接入大模型时的依赖问题小结》文章介绍了如何在pom.xml文件中配置SpringAIAlibaba依赖,并提供了一个示例pom.xml文件,同时,建议将Maven仓... 目录(一)pom.XML文件:(二)application.yml配置文件(一)pom.xml文件:首

Java如何获取视频文件的视频时长

《Java如何获取视频文件的视频时长》文章介绍了如何使用Java获取视频文件的视频时长,包括导入maven依赖和代码案例,同时,也讨论了在运行过程中遇到的SLF4J加载问题,并给出了解决方案... 目录Java获取视频文件的视频时长1、导入maven依赖2、代码案例3、SLF4J: Failed to lo

C语言中自动与强制转换全解析

《C语言中自动与强制转换全解析》在编写C程序时,类型转换是确保数据正确性和一致性的关键环节,无论是隐式转换还是显式转换,都各有特点和应用场景,本文将详细探讨C语言中的类型转换机制,帮助您更好地理解并在... 目录类型转换的重要性自动类型转换(隐式转换)强制类型转换(显式转换)常见错误与注意事项总结与建议类型

SpringBoot整合DeepSeek实现AI对话功能

《SpringBoot整合DeepSeek实现AI对话功能》本文介绍了如何在SpringBoot项目中整合DeepSeekAPI和本地私有化部署DeepSeekR1模型,通过SpringAI框架简化了... 目录Spring AI版本依赖整合DeepSeek API key整合本地化部署的DeepSeek

Python实现多路视频多窗口播放功能

《Python实现多路视频多窗口播放功能》这篇文章主要为大家详细介绍了Python实现多路视频多窗口播放功能的相关知识,文中的示例代码讲解详细,有需要的小伙伴可以跟随小编一起学习一下... 目录一、python实现多路视频播放功能二、代码实现三、打包代码实现总结一、python实现多路视频播放功能服务端开

Java使用POI-TL和JFreeChart动态生成Word报告

《Java使用POI-TL和JFreeChart动态生成Word报告》本文介绍了使用POI-TL和JFreeChart生成包含动态数据和图表的Word报告的方法,并分享了实际开发中的踩坑经验,通过代码... 目录前言一、需求背景二、方案分析三、 POI-TL + JFreeChart 实现3.1 Maven

Python实现视频转换为音频的方法详解

《Python实现视频转换为音频的方法详解》这篇文章主要为大家详细Python如何将视频转换为音频并将音频文件保存到特定文件夹下,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. python需求的任务2. Python代码的实现3. 代码修改的位置4. 运行结果5. 注意事项