【LLM】文生视频相关开源数据集（VidGen、Panda、Cogvideox等）

本文主要是介绍【LLM】文生视频相关开源数据集（VidGen、Panda、Cogvideox等），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

note

总结了VidGen数据集、Panda-70m数据集、Openvid数据集、OpenVid-1M数据集、Cogvideox训练数据准备过程、ShareGPT4Video数据集等
在一篇综述中还总结了评估指标包括：峰值信噪比（PSNR）、结构相似性指数（SSIM）、Inception 分数（IS）、Fréchet Inception 距离（FID）、CLIP 分数、视频 Inception 分数（Video IS）、核视频距离（KVD）、帧一致性分数（FCS）
各家提出的开源数据后，为了证明自己有效，会在上面这些不同指标评测

文章目录

note
一、VidGen数据集
二、Panda-70m数据集
三、Openvid数据集
四、OpenVid-1M数据集
五、Cogvideox训练数据准备
六、综述：From Sora What We Can See: A Survey of Text-to-Video Generation
七、ShareGPT4Video数据集
Reference

一、VidGen数据集

（1）VidGen数据集：vidgen-1M利用了来自HD-VILA数据集的380万高分辨率、长时段视频。随后，这些视频被分割成1.08亿个视频片段。接下来，本文对这些视频片段进行了标注和采样。然后，使用VILA模型进行视频字幕生成
论文链接：https://arxiv.org/pdf/2408.02629
项目链接：https://sais-fuxi.github.io/projects/vidgen-1m/
git链接：https://github.com/SAIS-FUXI/VidGen

二、Panda-70m数据集

（2）Panda-70m数据集：这里是从公开可用的高清视频语料库HD-VILA-100M中策划了380万个高分辨率视频。然后，我们将它们分割成语义一致的视频片段，并应用多个跨模态教师模型为每个视频获取字幕。panda-70m数据集价值：视频字幕生成、视频和文本检索以及文本驱动的视频生成。
论文名：Panda-70M: Captioning 70M Videos with Multiple Cross-Modality Teachers
论文链接：https://arxiv.org/pdf/2402.19479.pdf

三、Openvid数据集

（3）Openvid数据集：通过广泛的实验和消融研究，验证了OpenVid-1M数据集相较于先前数据集的优越性以及MVDiT模型的有效性。在公共基准测试中，MVDiT在多个评估指标上均取得了最佳性能，包括视频质量评估（VQAA和VQAT）、文本与视频对齐（Blip_bleu和SD_score）以及视频时间一致性（Clip_temp_score和Warping_error）。这些结果证明了OpenVid-1M数据集在生成高质量视频方面的显著贡献。
http://arxiv.org/abs/2407.02371v1
https://nju-pcalab.github.io/projects/openvid

在这里插入图片描述

四、OpenVid-1M数据集

（4）OpenVid-1M数据集：
介绍：https://nju-pcalab.github.io/projects/openvid/
论文：https://export.arxiv.org/abs/2407.02371

OpenVid-1M的多样性也体现在其包含的多种场景，如人像、风景、城市、变形内容和动物等。数据集的视频分辨率至少为512×512，远高于许多现有的视频数据集，如WebVid-10M和Panda-70M。
OpenVid-1M的视频片段经过了自动化流程的筛选，包括使用LAION Aesthetics Predictor进行美学评分，利用CLIP模型评估时间一致性，以及通过UniMatch评估运动差异，确保了视频内容的流畅性和稳定性。最终，通过DOVER模型进行清晰度评估，筛选出具有清晰纹理的高质量视频片段，并使用Cascaded Cut Detector进行片段提取，确保每个片段只包含单一场景。

在这里插入图片描述

数据筛选流程：数据集的策划采用了自动化的多步骤处理流程，包括：

使用LAION Aesthetics Predictor进行美学评分，筛选出具有高美学得分的视频。
利用CLIP模型评估视频的时间一致性，筛选出视觉质量高且时间上连续的视频片段。
通过UniMatch评估运动差异，选择运动平滑的视频片段。
使用DOVER模型进行清晰度评估，保留纹理清晰、质量高的片段。
采用Cascaded Cut Detector进行片段提取，确保每个片段只包含单一场景。

高清视频子集：从OpenVid-1M中精选出433K个1080p高清视频，构成了OpenVidHD-0.4M子集，专门用于推动高清视频生成技术的研究。

五、Cogvideox训练数据准备

caption数据准备pipeline如下：
（0）基于一些开源数据：Panda70M (Chen et al., 2024b)、COCO Caption (Lin et al., 2014) 和 WebVid Bain et al. (2021)
（1）取出视频的每帧，送给cogvlm进行图生文逐帧理解，然后对每帧内容进行汇总总结；这里用GPT4造了些微调数据，基于llama微调文本摘要模型
（2）第二种方法是直接使用cogvlm2-video视频理解模型

在这里插入图片描述

六、综述：From Sora What We Can See: A Survey of Text-to-Video Generation

原文链接：https://arxiv.org/pdf/2405.10674
研究列表：https://github.com/soraw-ai/Awesome-Text-to-Video-Generation?tab=readme-ov-file

回顾了T2V数据集，并主要根据收集的领域将其分类为六个流派：面部、开放、电影、动作、指导和烹饪。核心就是下面这个图：

在这里插入图片描述
评估指标包括：峰值信噪比（PSNR）、结构相似性指数（SSIM）、Inception 分数（IS）、Fréchet Inception 距离（FID）、CLIP 分数、视频 Inception 分数（Video IS）、核视频距离（KVD）、帧一致性分数（FCS）。

七、ShareGPT4Video数据集

链接：https://hf-mirror.com/datasets/ShareGPT4Video/ShareGPT4Video
单位：中科大、上海AI实验室
描述文本的字数主要在200-400之间，提供了丰富的时间信息，可以很好地完成视频理解和生成任务。
论文地址：https://arxiv.org/abs/2406.04325v1
项目主页：https://ShareGPT4Video.github.io/
GitHub：https://github.com/ShareGPT4Omni/ShareGPT4Video

数据集类型： ShareGPT4Video Captions 4.8M 是一组由 GPT4-Vision 提供支持的视频多模式字幕数据。

它的构建是为了增强大型视频语言模型 (LVLM) 和文本到视频模型 (T2VM) 中的模态对齐和细粒度视觉概念感知。这一进步旨在使 LVLM 和 T2VM 达到 GPT4V 和 Sora 的功能。

sharegpt4video_40k.jsonl 由 GPT4-Vision (ShareGPT4Video) 生成。
share-captioner-video_mixkit-pexels-pixabay_4814k_0417.json 由我们的 ShareCaptioner-Video 生成，该 ShareCaptioner-Video 经过 GPT4-Vision 生成的视频字幕对训练。
sharegpt4video_mix181k_vqa-153k_share-cap-28k.json 是从 sharegpt4video_instruct_gpt4-vision_cap40k.json 中精选出来的用于 LVLM 的监督微调阶段。
llava_v1_5_mix665k_with_video_chatgpt72k_share4video28k.json 将 VideoChatGPT 中的 28K 详细字幕相关数据替换为 ShareGPT4Video 中的 28K 高质量字幕。此文件用于验证 VideoLLaVA 和 LLaMA-VID 模型下高质量字幕的有效性。

用现有的闭源模型生成高质量视频描述的挑战有三个方面——

一是清晰地理解帧间的时序变化；
二是详细准确地描述帧内内容；
另外，对任意长度视频的可扩展性也是一大难点。

为此，研究者们精心设计了一种描述策略。这种策略叫做差分滑窗视频描述（Differential Sliding-Window Captioning, DiffSW），可以稳定且高效地为任意分辨率、宽高比和长度的视频生成高质量描述。具体而言，研究者们每次送入GPT-4V的输入是当前关键帧、上一关键帧，以及上一关键帧对应的差分描述。
这样做的目的是让GPT-4V通过观察两帧之间的时间与空间变化，总结出当前帧相对于上一帧的重要空间、时序变化，也就是当前帧与上一帧对应的差分描述。最终，所有差分描述会连同时间戳一起送入GPT4中，从而总结出最终的关于整个视频的高质量字幕。