Lumina-T2X 一个使用 DiT 架构的内容生成模型,可通过文本生成图像、视频、多视角 3D 对象和音频剪辑。

本文主要是介绍Lumina-T2X 一个使用 DiT 架构的内容生成模型,可通过文本生成图像、视频、多视角 3D 对象和音频剪辑。,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Lumina-T2X 是一个新的内容生成系列模型,统一使用 DiT 架构。通过文本生成图像、视频、多视角 3D 对象和音频剪辑。

可以在大幅提高生成质量的前提下大幅减少训练成本,而且同一个架构支持不同的内容生成。图像质量相当不错。

由 50 亿参数的 Flag-DiT 驱动的 Lumina-T2I,其训练计算成本仅为同类 6 亿参数模型的 35%。

目前放出了 Lumina-T2I 图像生成模型,模型主干是Large-DiT、文本编码模型是 Llama2-7B 、VAE 用的 SDXL的。

相关链接

论文链接:https://arxiv.org/pdf/2405.05945 模型下载:https://huggingface.co/Alpha-VLLM/Lumina-T2I

论文阅读

摘要

Sora揭示了缩放扩散变压器(DIT)的潜力 以任意分辨率,宽高比和持续时间为单位的影像图像和视频,但仍然缺乏足够的实施细节。

在这份技术报告中,我们介绍了Lumina-T2X家族 - 一系列配备零定位注意的基于流动的大扩散变压器(FLAG-DIT),作为一个统一的框架,旨在将噪声转换为图像,视频,多视图 3D对象和音频剪辑以文本说明为条件。

通过对潜在的时空空间进行象征,并结合了[Nextline]和[NextFrame]令牌等可学习的占位符,Lumina-T2X无缝地统一了各种时空分辨率的不同方式的表示。这种统一的方法可以在单个框架内培训不同方式,并可以在任何分辨率,宽高比和推理期间的长度下灵活地生成多模式数据。诸如绳索,rmsnorm和流匹配之类的高级技术增强了旗帜dit的稳定性,灵活性和可扩展性,使Lumina-T2X的模型可扩展到高达70亿个参数,并将上下文窗口扩展到128K tokens。

带有Lumina-T2I型号和Lumina-T2V型号的长720p视频的图像对于创建超高定义特别有益。值得注意的是,由50亿参数的旗帜驱动的Lumina-T2i仅需要6亿参数NAIVE DIT(PIXART-α)的训练计算成本的35%,这表明参数数量显着增加 加速生成模型的收敛性而不损害视觉质量。我们进一步的全面分析强调了Lumina-T2X在分辨率外推,高分辨率编辑,生成一致的3D视图以及具有无缝过渡的综合视频方面的初步能力。

方法

Flag-dit与标签和文本条件的比较。(左)Flag-dit与标签调节。(右)具有零初始化注意机制的文本条件反射。

我们的Lumina-T2X框架由四个组件组成:逐帧编码,输入和基于Flag-DiT的目标构建、文本编码和预测。

Lumina-T2I是一个统一的和免训练的框架,支持文本到图像的生成,分辨率外推,风格一致生成,合成生成和高分辨率编辑。

实验

Lumina-T2I能够生成任意宽高比的图像,提供优越的分辨率视觉质量和保真度,同时严格遵守给定的文本说明。

Lumina-T2I的分辨率外推样本。无需任何额外的训练,LuminaT2I能够直接生成从512512到17921792的各种分辨率的图像。

由Lumina-T2I生成的风格一致的图像生成样本。给定一个共享样式描述,Lumina-T2I可以生成一批具有不同风格一致内容的图像。

Lumina-T2I的成分生成样本。我们的Lumina-T2I框架可以生成高质量的图像与复杂区域组成基于提示和指定的组合。

演示高分辨率图像的样式编辑和主题编辑教练免费的方式。

Lumina-T2I与PixArt-α在图像生成中的定性比较 多个决议。来自Lumina-T2I的样本显示了与给定文本更好的对齐与PixArt-α相比,在所有分辨率下都具有卓越的视觉质量。

结论

在本文中,我们提出了Lumina-T2X,这是一个统一的框架,旨在将文本说明转换为任意分辨率和持续时间的任何模式,包括图像,视频,3D对象的多视图以及语音。 Lumina-T2X的核心是一系列基于流动的大扩散变压器(FLAG-DIT),精心设计用于可扩展的条件生成。配备了关键修改,包括绳索,RNSNORM,KQ-NORM和零定位的注意体系结构,[NextLine]和[NextFrame]令牌用于数据表示形式,以及与原点扩散变压器相比,我们的旗帜位从扩散到流匹配公式的转换为稳定性,灵活性和可扩展性的大大提高。我们首先验证了Imagenet基准上标志dit的生成能力,该功能表现出卓越的性能和 与扩展模型参数一致的更快收敛。

鉴于这些有前途的发现,我们以各种方式实例化旗杆,并为文本对图像,视频,视频提供统一的食谱 多文章和语音产生。我们证明,该框架不仅可以在任意分辨率下生成逼真的图像或视频任务,例如以无训练的方式推断出外推,高分辨率编辑和组成生成。

总体而言,我们希望我们的尝试,发现和开源的Lumina-T2X可以帮助阐明生成AI的路线图,并成为进一步研究开发有效大型多模式生成模型的新起点。

这篇关于Lumina-T2X 一个使用 DiT 架构的内容生成模型,可通过文本生成图像、视频、多视角 3D 对象和音频剪辑。的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/989764

相关文章

mybatis的整体架构

mybatis的整体架构分为三层: 1.基础支持层 该层包括:数据源模块、事务管理模块、缓存模块、Binding模块、反射模块、类型转换模块、日志模块、资源加载模块、解析器模块 2.核心处理层 该层包括:配置解析、参数映射、SQL解析、SQL执行、结果集映射、插件 3.接口层 该层包括:SqlSession 基础支持层 该层保护mybatis的基础模块,它们为核心处理层提供了良好的支撑。

流媒体平台/视频监控/安防视频汇聚EasyCVR播放暂停后视频画面黑屏是什么原因?

视频智能分析/视频监控/安防监控综合管理系统EasyCVR视频汇聚融合平台,是TSINGSEE青犀视频垂直深耕音视频流媒体技术、AI智能技术领域的杰出成果。该平台以其强大的视频处理、汇聚与融合能力,在构建全栈视频监控系统中展现出了独特的优势。视频监控管理系统EasyCVR平台内置了强大的视频解码、转码、压缩等技术,能够处理多种视频流格式,并以多种格式(RTMP、RTSP、HTTP-FLV、WebS

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

百度/小米/滴滴/京东,中台架构比较

小米中台建设实践 01 小米的三大中台建设:业务+数据+技术 业务中台--从业务说起 在中台建设中,需要规范化的服务接口、一致整合化的数据、容器化的技术组件以及弹性的基础设施。并结合业务情况,判定是否真的需要中台。 小米参考了业界优秀的案例包括移动中台、数据中台、业务中台、技术中台等,再结合其业务发展历程及业务现状,整理了中台架构的核心方法论,一是企业如何共享服务,二是如何为业务提供便利。

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

基于人工智能的图像分类系统

目录 引言项目背景环境准备 硬件要求软件安装与配置系统设计 系统架构关键技术代码示例 数据预处理模型训练模型预测应用场景结论 1. 引言 图像分类是计算机视觉中的一个重要任务,目标是自动识别图像中的对象类别。通过卷积神经网络(CNN)等深度学习技术,我们可以构建高效的图像分类系统,广泛应用于自动驾驶、医疗影像诊断、监控分析等领域。本文将介绍如何构建一个基于人工智能的图像分类系统,包括环境

无人叉车3d激光slam多房间建图定位异常处理方案-墙体画线地图切分方案

墙体画线地图切分方案 针对问题:墙体两侧特征混淆误匹配,导致建图和定位偏差,表现为过门跳变、外月台走歪等 ·解决思路:预期的根治方案IGICP需要较长时间完成上线,先使用切分地图的工程化方案,即墙体两侧切分为不同地图,在某一侧只使用该侧地图进行定位 方案思路 切分原理:切分地图基于关键帧位置,而非点云。 理论基础:光照是直线的,一帧点云必定只能照射到墙的一侧,无法同时照到两侧实践考虑:关

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

Hadoop数据压缩使用介绍

一、压缩原则 (1)运算密集型的Job,少用压缩 (2)IO密集型的Job,多用压缩 二、压缩算法比较 三、压缩位置选择 四、压缩参数配置 1)为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器 2)要在Hadoop中启用压缩,可以配置如下参数

Makefile简明使用教程

文章目录 规则makefile文件的基本语法:加在命令前的特殊符号:.PHONY伪目标: Makefilev1 直观写法v2 加上中间过程v3 伪目标v4 变量 make 选项-f-n-C Make 是一种流行的构建工具,常用于将源代码转换成可执行文件或者其他形式的输出文件(如库文件、文档等)。Make 可以自动化地执行编译、链接等一系列操作。 规则 makefile文件