【LLM】文生视频相关开源数据集(VidGen、Panda、Cogvideox等)

2024-09-02 05:04

本文主要是介绍【LLM】文生视频相关开源数据集(VidGen、Panda、Cogvideox等),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

note

  • 总结了VidGen数据集、Panda-70m数据集、Openvid数据集、OpenVid-1M数据集、Cogvideox训练数据准备过程、ShareGPT4Video数据集等
  • 在一篇综述中还总结了评估指标包括:峰值信噪比(PSNR)、结构相似性指数(SSIM)、Inception 分数(IS)、Fréchet Inception 距离(FID)、CLIP 分数、视频 Inception 分数(Video IS)、核视频距离(KVD)、帧一致性分数(FCS)
  • 各家提出的开源数据后,为了证明自己有效,会在上面这些不同指标评测

文章目录

  • note
  • 一、VidGen数据集
  • 二、Panda-70m数据集
  • 三、Openvid数据集
  • 四、OpenVid-1M数据集
  • 五、Cogvideox训练数据准备
  • 六、综述:From Sora What We Can See: A Survey of Text-to-Video Generation
  • 七、ShareGPT4Video数据集
  • Reference

一、VidGen数据集

(1)VidGen数据集:vidgen-1M利用了来自HD-VILA数据集的380万高分辨率、长时段视频。随后,这些视频被分割成1.08亿个视频片段。接下来,本文对这些视频片段进行了标注和采样。然后,使用VILA模型进行视频字幕生成
论文链接:https://arxiv.org/pdf/2408.02629
项目链接:https://sais-fuxi.github.io/projects/vidgen-1m/
git链接:https://github.com/SAIS-FUXI/VidGen

二、Panda-70m数据集

(2)Panda-70m数据集:这里是从公开可用的高清视频语料库HD-VILA-100M中策划了380万个高分辨率视频。然后,我们将它们分割成语义一致的视频片段,并应用多个跨模态教师模型为每个视频获取字幕。panda-70m数据集价值:视频字幕生成、视频和文本检索以及文本驱动的视频生成。
论文名:Panda-70M: Captioning 70M Videos with Multiple Cross-Modality Teachers
论文链接:https://arxiv.org/pdf/2402.19479.pdf

三、Openvid数据集

(3)Openvid数据集:通过广泛的实验和消融研究,验证了OpenVid-1M数据集相较于先前数据集的优越性以及MVDiT模型的有效性。在公共基准测试中,MVDiT在多个评估指标上均取得了最佳性能,包括视频质量评估(VQAA和VQAT)、文本与视频对齐(Blip_bleu和SD_score)以及视频时间一致性(Clip_temp_score和Warping_error)。这些结果证明了OpenVid-1M数据集在生成高质量视频方面的显著贡献。
http://arxiv.org/abs/2407.02371v1
https://nju-pcalab.github.io/projects/openvid

在这里插入图片描述

四、OpenVid-1M数据集

(4)OpenVid-1M数据集:
介绍:https://nju-pcalab.github.io/projects/openvid/
论文:https://export.arxiv.org/abs/2407.02371

  • OpenVid-1M的多样性也体现在其包含的多种场景,如人像、风景、城市、变形内容和动物等。数据集的视频分辨率至少为512×512,远高于许多现有的视频数据集,如WebVid-10M和Panda-70M。
  • OpenVid-1M的视频片段经过了自动化流程的筛选,包括使用LAION Aesthetics Predictor进行美学评分,利用CLIP模型评估时间一致性,以及通过UniMatch评估运动差异,确保了视频内容的流畅性和稳定性。最终,通过DOVER模型进行清晰度评估,筛选出具有清晰纹理的高质量视频片段,并使用Cascaded Cut Detector进行片段提取,确保每个片段只包含单一场景。

在这里插入图片描述

数据筛选流程:数据集的策划采用了自动化的多步骤处理流程,包括:

  • 使用LAION Aesthetics Predictor进行美学评分,筛选出具有高美学得分的视频。
  • 利用CLIP模型评估视频的时间一致性,筛选出视觉质量高且时间上连续的视频片段。
  • 通过UniMatch评估运动差异,选择运动平滑的视频片段。
  • 使用DOVER模型进行清晰度评估,保留纹理清晰、质量高的片段。
  • 采用Cascaded Cut Detector进行片段提取,确保每个片段只包含单一场景。

高清视频子集:从OpenVid-1M中精选出433K个1080p高清视频,构成了OpenVidHD-0.4M子集,专门用于推动高清视频生成技术的研究。

五、Cogvideox训练数据准备

caption数据准备pipeline如下:
(0)基于一些开源数据:Panda70M (Chen et al., 2024b)、COCO Caption (Lin et al., 2014) 和 WebVid Bain et al. (2021)
(1)取出视频的每帧,送给cogvlm进行图生文逐帧理解,然后对每帧内容进行汇总总结;这里用GPT4造了些微调数据,基于llama微调文本摘要模型
(2)第二种方法是直接使用cogvlm2-video视频理解模型

在这里插入图片描述

六、综述:From Sora What We Can See: A Survey of Text-to-Video Generation

原文链接:https://arxiv.org/pdf/2405.10674
研究列表:https://github.com/soraw-ai/Awesome-Text-to-Video-Generation?tab=readme-ov-file

回顾了T2V数据集,并主要根据收集的领域将其分类为六个流派:面部、开放、电影、动作、指导和烹饪。核心就是下面这个图:

在这里插入图片描述
评估指标包括:峰值信噪比(PSNR)、结构相似性指数(SSIM)、Inception 分数(IS)、Fréchet Inception 距离(FID)、CLIP 分数、视频 Inception 分数(Video IS)、核视频距离(KVD)、帧一致性分数(FCS)。

七、ShareGPT4Video数据集

链接:https://hf-mirror.com/datasets/ShareGPT4Video/ShareGPT4Video
单位:中科大、上海AI实验室
描述文本的字数主要在200-400之间,提供了丰富的时间信息,可以很好地完成视频理解和生成任务。
论文地址:https://arxiv.org/abs/2406.04325v1
项目主页:https://ShareGPT4Video.github.io/
GitHub:https://github.com/ShareGPT4Omni/ShareGPT4Video

数据集类型: ShareGPT4Video Captions 4.8M 是一组由 GPT4-Vision 提供支持的视频多模式字幕数据。

它的构建是为了增强大型视频语言模型 (LVLM) 和文本到视频模型 (T2VM) 中的模态对齐和细粒度视觉概念感知。这一进步旨在使 LVLM 和 T2VM 达到 GPT4V 和 Sora 的功能。

  • sharegpt4video_40k.jsonl 由 GPT4-Vision (ShareGPT4Video) 生成。
  • share-captioner-video_mixkit-pexels-pixabay_4814k_0417.json 由我们的 ShareCaptioner-Video 生成,该 ShareCaptioner-Video 经过 GPT4-Vision 生成的视频字幕对训练。
  • sharegpt4video_mix181k_vqa-153k_share-cap-28k.json 是从 sharegpt4video_instruct_gpt4-vision_cap40k.json 中精选出来的用于 LVLM 的监督微调阶段。
  • llava_v1_5_mix665k_with_video_chatgpt72k_share4video28k.json 将 VideoChatGPT 中的 28K 详细字幕相关数据替换为 ShareGPT4Video 中的 28K 高质量字幕。此文件用于验证 VideoLLaVA 和 LLaMA-VID 模型下高质量字幕的有效性。

用现有的闭源模型生成高质量视频描述的挑战有三个方面——

  • 一是清晰地理解帧间的时序变化;
  • 二是详细准确地描述帧内内容;
  • 另外,对任意长度视频的可扩展性也是一大难点。

为此,研究者们精心设计了一种描述策略。这种策略叫做差分滑窗视频描述(Differential Sliding-Window Captioning, DiffSW),可以稳定且高效地为任意分辨率、宽高比和长度的视频生成高质量描述。具体而言,研究者们每次送入GPT-4V的输入是当前关键帧、上一关键帧,以及上一关键帧对应的差分描述。
这样做的目的是让GPT-4V通过观察两帧之间的时间与空间变化,总结出当前帧相对于上一帧的重要空间、时序变化,也就是当前帧与上一帧对应的差分描述。最终,所有差分描述会连同时间戳一起送入GPT4中,从而总结出最终的关于整个视频的高质量字幕。

Reference

复旦最新VidGen-1M: 文生视频还得靠好数据
7000万高质量视频文本对!文生视频最大的开源数据集Panda-70M来了!
Panda-70M数据集:用多模态教师模型为7000万视频自动生成字幕
OpenVid-1M:专为文本到视频生成(T2V)的大规模高质量数据集

这篇关于【LLM】文生视频相关开源数据集(VidGen、Panda、Cogvideox等)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1129063

相关文章

流媒体平台/视频监控/安防视频汇聚EasyCVR播放暂停后视频画面黑屏是什么原因?

视频智能分析/视频监控/安防监控综合管理系统EasyCVR视频汇聚融合平台,是TSINGSEE青犀视频垂直深耕音视频流媒体技术、AI智能技术领域的杰出成果。该平台以其强大的视频处理、汇聚与融合能力,在构建全栈视频监控系统中展现出了独特的优势。视频监控管理系统EasyCVR平台内置了强大的视频解码、转码、压缩等技术,能够处理多种视频流格式,并以多种格式(RTMP、RTSP、HTTP-FLV、WebS

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

sqlite3 相关知识

WAL 模式 VS 回滚模式 特性WAL 模式回滚模式(Rollback Journal)定义使用写前日志来记录变更。使用回滚日志来记录事务的所有修改。特点更高的并发性和性能;支持多读者和单写者。支持安全的事务回滚,但并发性较低。性能写入性能更好,尤其是读多写少的场景。写操作会造成较大的性能开销,尤其是在事务开始时。写入流程数据首先写入 WAL 文件,然后才从 WAL 刷新到主数据库。数据在开始

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推