MLLM（一）| 文/图生视频任务大升级，BigModel 开源了视频模型CogVideoX

本文主要是介绍MLLM（一）| 文/图生视频任务大升级，BigModel 开源了视频模型CogVideoX，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

CogVideoX的体验地址：https://bigmodel.cn/console/trialcenter?modelCode=cogvideox

自2021年起，智谱 AI 技术团队便开始着手布局包括 text-2-img、text-2-video、img-2-text、video-2-text 在内的多模态模型，并陆续研发并开源了CogView、CogVideo、Relay Diffusion、CogVLM、CogVLM-Video等多个先进模型。近期，智谱 AI 正式开源新一代视频大模型——CogVideoX。

一、CogVideoX的核心技术特点如下：

针对内容连贯性问题，智谱AI自主研发了一套高效的三维变分自编码器结构（3D VAE）。该结构能够将原始视频数据压缩至原始大小的2%，显著降低了视频扩散生成模型的训练成本和难度。结合3D RoPE位置编码模块，该技术有效提升了在时间维度上对帧间关系的捕捉能力，从而建立了视频中的长期依赖关系。

在可控性方面，智谱AI打造了一款端到端的视频理解模型，该模型能够为大量视频数据生成精确且内容相关的描述。这一创新增强了模型对文本的理解和对指令的遵循能力，确保生成的视频更加符合用户的输入需求，并能够处理超长且复杂的prompt指令。

模型采纳了一种将文本、时间、空间三维一体融合的transformer架构。该架构摒弃了传统的cross attention模块，创新性地设计了Expert Block以实现文本与视频两种不同模态空间的对齐，并通过Full Attention机制优化模态间的交互效果。

CogVideoX 模型目前已在bigmodel.cn平台上线了，基于CogVideoX的产品「清影」（Ying）上线PC端，免费体验AI文本生成视频和图像生成视频的服务。

二、下面是使用bigmodel开放平台的体验示例：

2.1、图生视频

1）Prompt：城市中湖边上有一对情侣在缓慢散步

图片如下所示：

生成的视频如下：

请参见：MLLM（一）| 文/图生视频任务大升级，BigModel 开源了视频模型CogVideoX

生成的效果不错，非常高清。

2.2、文生视频

1）Prompt：一位头发苍白的老人（主体）站在海边（环境描述）看日落（动作）

生成的视频如下：

请参见：MLLM（一）| 文/图生视频任务大升级，BigModel 开源了视频模型CogVideoX

2）Prompt：特写镜头（镜头描述），清晨的微光（光线运用），两只鸳鸯在海面上嬉戏，鸳鸯是彩色羽毛（主体描述），背景国贸大厦（环境描述）。

请参见：MLLM（一）| 文/图生视频任务大升级，BigModel 开源了视频模型CogVideoX

3）Prompt：小狗在空地上画画

请参见：MLLM（一）| 文/图生视频任务大升级，BigModel 开源了视频模型CogVideoX

三、使用API生成视频

首先，需要在官网申请API Key，申请地址：https://bigmodel.cn

然后，使用如下脚本生成视频

from zhipuai import ZhipuAI
client = ZhipuAI(api_key="") # 请填写您自己的APIKeyresponse = client.videos.generations(model="cogvideox",prompt="小狗在空地上画画。"
)
print(response)

生成VideoObject对象，其中id为视频唯一识别号。

VideoObject(id='636617217207461558911210927746488763', model='cogvideox', video_result=None, task_status='PROCESSING', request_id='8911210927746488759')

接下来，使用上述生成的视频id抽取视频内容。

from zhipuai import ZhipuAI
client = ZhipuAI(api_key="") # 请填写您自己的APIKeyresponse = client.videos.retrieve_videos_result(id="636617217207461558911210927746488763"
)
print(response)

抽取视频内容后，会生成视频的url和其中一帧图片的url，具体如下所示：

VideoObject(id=None, model='cogvideox', video_result=[VideoResult(url='https://sfile.chatglm.cn/testpath/video/f0048f7d-e6ed-5cf9-810d-38f14631f9de_0.mp4', cover_image_url='https://sfile.chatglm.cn/testpath/video_cover/f0048f7d-e6ed-5cf9-810d-38f14631f9de_cover_0.png')], task_status='SUCCESS', request_id='8911210927746488759')

生成的视频，如下所示：

请参见：MLLM（一）| 文/图生视频任务大升级，BigModel 开源了视频模型CogVideoX

生成的图片，如下图所示：