国产Sora诞生!清华团队发布Vidu大模型,可直接生成16秒视频

2024-04-29 20:36

本文主要是介绍国产Sora诞生!清华团队发布Vidu大模型,可直接生成16秒视频,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

大模型之争已从单模态转向多模态。

4月27日,在2024中关村论坛年会未来人工智能先锋论坛上,清华大学联合北京生数科技有限公司正式发布了文生视频大模型——Vidu。

在会议上,清华大学人工智能研究院副院长、生数科技首席科学家朱军对外展示了多段由Vidu生成的视频,单段视频最长可达16秒,并且在整个视频呈现上,Vidu已经不输Sora。

年初,OpenAI发布的Sora惊艳了世界,也让外界对大模型的关注焦点从单模态转向多模态。而Vidu的发布,则是国内首个具备“长时长、高一致性、高动态性”等特点的视频大模型。

国产Sora

据朱军介绍,目前国内已有视频大模型的生成视频大多在4秒左右,而Vidu可以一次性生成16秒的视频。除了在时长上的突破以外,Vidu在视频效果方面也得到显著提升。

比如Vidu能够生成复杂的动态镜头,不再局限于简单的推、拉、移等固定镜头,而是能够在一段画面里实现远景、近景、中景、特写等不同镜头的切换,包括直接生成长镜头、追焦、转场等效果。

另外,Vidu既能够模拟真实物理世界,也能够生成真实世界不存在的虚构画面。其中对于真实世界,Vidu能生成细节复杂且符合真实物理规律的场景,例如合理的光影效果、细腻的人物表情等。

同时,作为国产大模型,Vidu更理解中国元素,能够生成熊猫、龙等特有的中国元素。

朱军表示,Vidu与Sora一样,采用的都是“一步到位”的生成方式,即视频片段从头到尾是连续生成的,在底层算法上则是基于单一模型完全端到端生成,不涉及中间的插帧和其他多步骤的处理。

早于DiT架构提出U-ViT

据朱军介绍,Vidu的快速突破源自于团队在贝叶斯机器学习和多模态大模型的长期积累和多项原创性成果。其核心技术U-ViT架构由团队于2022年9月提出,早于Sora采用的DiT架构,是全球首个Diffusion与Transformer融合的架构。

需要指出的是,外界熟悉的Sora、Stable Diffusion 3等模型,采用的都是Diffusion Transformer架构DiT。而所谓Diffusion Transformer是在Diffusion Model(扩散模型)中,用Transformer替换常用的U-Net,将Transformer的可扩展性与Diffusion模型处理视觉数据的天然优势进行融合。

DiT架构由伯克利团队于2022年12月发表。而生数科技在其之前提出的基于Transformer的网络架构U-ViT,两项工作在架构思路与实验路径上完全一致,均是将Transformer与扩散模型融合。

2023年3月,Vidu团队开源了全球首个基于U-ViT融合架构的多模态扩散模型UniDiffuser,并率先完成了U-ViT架构的大规模可扩展性验证。

正是有了这些长期的技术积累,Vidu团队才能够在Sora发布仅两个月后,就快速推出了自研视频大模型。

朱军表示,从图文任务的统一到融合视频能力,作为通用视觉模型,Vidu能够支持生成更加多样化、更长时长的视频内容,同时面向未来,灵活架构也将能够兼容更广泛的模态,进一步拓展多模态通用能力的边界。

生数科技是谁?

作为Vidu的研发方之一,外界对于生数科技可能相对陌生。

生数科技成立于2023年3月,核心团队来自清华大学人工智能研究院,此外还包括来自北京大学和阿里巴巴、腾讯、字节跳动等科技公司的多位技术人才。

去年,生数科技完成多笔融资,投资方包括蚂蚁集团、锦秋基金等。今年3月,生数科技完成新一轮数亿元融资,由启明创投领投,达泰资本、鸿福厚德、智谱AI、老股东BV百度风投和卓源亚洲跟投。

目前,生数科技团队于ICML、NeurIPS、ICLR等人工智能顶会发表相关论文近30篇。在扩散模型方面,该团队的成果已涉及骨干网络、高速推理算法、大规模训练等全栈技术方向。

另外虽然成立时间不长,但生数科技已经开始推进大模型的商业化落地。一方面是以API的形式向B端机构直接提供模型能力,另一方面打造垂类应用产品,按照订阅等形式收费。

截至目前,生数科技已与多家游戏公司、个人终端厂商、互联网平台等B端机构开展合作,同时,生数科技也于去年上线两款工具产品,分别是视觉创意设计平台PixWeaver金额3D资产创建工具VoxCraft。

大模型岗位需求

大模型时代,企业对人才的需求变了,AIGC相关岗位人才难求,薪资持续走高,AI运营薪资平均值约18457元,AI工程师薪资平均值约37336元,大模型算法薪资平均值约39607元。
在这里插入图片描述

掌握大模型技术你还能拥有更多可能性

• 成为一名全栈大模型工程师,包括Prompt,LangChain,LoRA等技术开发、运营、产品等方向全栈工程;

• 能够拥有模型二次训练和微调能力,带领大家完成智能对话、文生图等热门应用;

• 薪资上浮10%-20%,覆盖更多高薪岗位,这是一个高需求、高待遇的热门方向和领域;

• 更优质的项目可以为未来创新创业提供基石。

可能大家都想学习AI大模型技术,也想通过这项技能真正达到升职加薪,就业或是副业的目的,但是不知道该如何开始学习,因为网上的资料太多太杂乱了,如果不能系统的学习就相当于是白学。为了让大家少走弯路,少碰壁,这里我直接把全套AI技术和大模型入门资料、操作变现玩法都打包整理好,希望能够真正帮助到大家。

-END-


👉AI大模型学习路线汇总👈

大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
在这里插入图片描述
在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

这篇关于国产Sora诞生!清华团队发布Vidu大模型,可直接生成16秒视频的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/947093

相关文章

定价129元!支持双频 Wi-Fi 5的华为AX1路由器发布

《定价129元!支持双频Wi-Fi5的华为AX1路由器发布》华为上周推出了其最新的入门级Wi-Fi5路由器——华为路由AX1,建议零售价129元,这款路由器配置如何?详细请看下文介... 华为 Wi-Fi 5 路由 AX1 已正式开售,新品支持双频 1200 兆、配有四个千兆网口、提供可视化智能诊断功能,建

0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型的操作流程

《0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeekR1模型的操作流程》DeepSeekR1模型凭借其强大的自然语言处理能力,在未来具有广阔的应用前景,有望在多个领域发... 目录0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型,3步搞定一个应

Deepseek R1模型本地化部署+API接口调用详细教程(释放AI生产力)

《DeepseekR1模型本地化部署+API接口调用详细教程(释放AI生产力)》本文介绍了本地部署DeepSeekR1模型和通过API调用将其集成到VSCode中的过程,作者详细步骤展示了如何下载和... 目录前言一、deepseek R1模型与chatGPT o1系列模型对比二、本地部署步骤1.安装oll

浅析如何使用Swagger生成带权限控制的API文档

《浅析如何使用Swagger生成带权限控制的API文档》当涉及到权限控制时,如何生成既安全又详细的API文档就成了一个关键问题,所以这篇文章小编就来和大家好好聊聊如何用Swagger来生成带有... 目录准备工作配置 Swagger权限控制给 API 加上权限注解查看文档注意事项在咱们的开发工作里,API

Spring AI Alibaba接入大模型时的依赖问题小结

《SpringAIAlibaba接入大模型时的依赖问题小结》文章介绍了如何在pom.xml文件中配置SpringAIAlibaba依赖,并提供了一个示例pom.xml文件,同时,建议将Maven仓... 目录(一)pom.XML文件:(二)application.yml配置文件(一)pom.xml文件:首

Java如何获取视频文件的视频时长

《Java如何获取视频文件的视频时长》文章介绍了如何使用Java获取视频文件的视频时长,包括导入maven依赖和代码案例,同时,也讨论了在运行过程中遇到的SLF4J加载问题,并给出了解决方案... 目录Java获取视频文件的视频时长1、导入maven依赖2、代码案例3、SLF4J: Failed to lo

如何在本地部署 DeepSeek Janus Pro 文生图大模型

《如何在本地部署DeepSeekJanusPro文生图大模型》DeepSeekJanusPro模型在本地成功部署,支持图片理解和文生图功能,通过Gradio界面进行交互,展示了其强大的多模态处... 目录什么是 Janus Pro1. 安装 conda2. 创建 python 虚拟环境3. 克隆 janus

Python实现多路视频多窗口播放功能

《Python实现多路视频多窗口播放功能》这篇文章主要为大家详细介绍了Python实现多路视频多窗口播放功能的相关知识,文中的示例代码讲解详细,有需要的小伙伴可以跟随小编一起学习一下... 目录一、python实现多路视频播放功能二、代码实现三、打包代码实现总结一、python实现多路视频播放功能服务端开

Java使用POI-TL和JFreeChart动态生成Word报告

《Java使用POI-TL和JFreeChart动态生成Word报告》本文介绍了使用POI-TL和JFreeChart生成包含动态数据和图表的Word报告的方法,并分享了实际开发中的踩坑经验,通过代码... 目录前言一、需求背景二、方案分析三、 POI-TL + JFreeChart 实现3.1 Maven

Python实现视频转换为音频的方法详解

《Python实现视频转换为音频的方法详解》这篇文章主要为大家详细Python如何将视频转换为音频并将音频文件保存到特定文件夹下,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. python需求的任务2. Python代码的实现3. 代码修改的位置4. 运行结果5. 注意事项