vidu专题

探索中国文本到视频AI模型——Vidu

引言随着人工智能技术的不断进步，我们见证了从文本到视频内容生成的革命。最近，一个名为Vidu的中国文本到视频AI模型引起了全球的关注。由清华大学和中国AI初创公司声书科技联合开发的Vidu，于2024年4月27日宣布，它声称能够生成高达1080p分辨率的16秒视频，成为OpenAI的Sora AI模型的有力竞争者。官网： https://www.vidu.io/text-to-video

国产Sora诞生！清华团队发布Vidu大模型，可直接生成16秒视频

大模型之争已从单模态转向多模态。 4月27日，在2024中关村论坛年会未来人工智能先锋论坛上，清华大学联合北京生数科技有限公司正式发布了文生视频大模型——Vidu。在会议上，清华大学人工智能研究院副院长、生数科技首席科学家朱军对外展示了多段由Vidu生成的视频，单段视频最长可达16秒，并且在整个视频呈现上，Vidu已经不输Sora。年初，OpenAI发布的Sora惊艳了世界，也让外界对大

清华军团推出中国首个对标Sora的视频大模型Vidu，扒一扒它背后的模型架构

就在前天，Vidu 在 2024 中关村论坛年会之中横空出世。伴随着“中国首个”，“Sora 级视频模型”，“模拟真实的物理世界”等关键词下的刷屏式的报道，Vidu 一下成为国产视频模型的一剂强心针。尽管目前 Vidu 支持的视频长度是 16 秒，尚未达到 Sora 的 60 秒级，但是单看 Vidu 的宣传视频，如果以 Sora 为对标，可以看出 Vidu 在如时空一致性、物理规