Lumina-T2X: Transforming Text into Any Modality, Resolution, and Duration via Flow-based Large Diffusion Transformers

向作者提问

NEW

简介

Sora揭示了扩展Diffusion Transformer生成逼真图像和视频的潜力，但仍缺乏足够的实现细节。在这份技术报告中，我们介绍了Lumina-T2X系列——一系列配备零初始化注意力的基于流的大型Diffusion Transformer（Flag-DiT），作为一个统一的框架，旨在将噪声转化为图像、视频、多视角3D对象和文本指令条件下的音频片段。通过对潜在的时空空间进行标记化，并结合可学习的占位符，如[nextline]和[nextframe]标记，Lumina-T2X无缝地统一了不同模态在各种时空分辨率下的表示。这种统一的方法使得可以在单个框架内训练不同模态，并允许在推理过程中以任意分辨率、长宽比和长度生成多模态数据。RoPE、RMSNorm和流匹配等高级技术增强了Flag-DiT的稳定性、灵活性和可扩展性，使得Lumina-T2X模型可以扩展到70亿个参数，并将上下文窗口扩展到128K个标记。这对于使用我们的Lumina-T2I模型创建超高清图像和使用我们的Lumina-T2V模型创建长720p视频尤其有益。值得注意的是，由50亿个参数的Flag-DiT驱动的Lumina-T2I仅需要600万个参数的naive DiT的35％的训练计算成本。我们进一步的综合分析强调了Lumina-T2X在分辨率外推、高分辨率编辑、生成一致的3D视图和合成具有无缝转换的视频方面的初步能力。我们期望Lumina-T2X的开源将进一步促进生成AI社区的创造力、透明度和多样性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在提出一种新的框架Lumina-T2X，通过流式大型扩散变压器（Flag-DiT）和零初始化注意力来生成图像、视频、多视角3D对象和音频剪辑，并在单个框架中统一不同模态的表示，并允许在推理过程中灵活生成多模态数据。
关键思路

论文提出了一种基于流的大型扩散变压器（Flag-DiT）的框架，通过统一不同模态的表示，实现了灵活生成多模态数据，同时采用RoPE、RMSNorm和流匹配等技术提高了Flag-DiT的稳定性、灵活性和可扩展性。
其它亮点

论文的亮点包括：采用流式大型扩散变压器（Flag-DiT）和零初始化注意力生成多模态数据；通过统一不同模态的表示，在单个框架中进行训练和推理；采用RoPE、RMSNorm和流匹配等技术提高Flag-DiT的稳定性、灵活性和可扩展性；在分辨率外推、高分辨率编辑、生成一致的3D视图和合成具有无缝转换的视频方面表现出良好的性能。
相关研究

最近在这个领域中，还有一些相关的研究，如：《Generative Pretraining Transformer 3》、《Glow: Generative Flow with Invertible 1x1 Convolutions》、《Flow-based Generative Models》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问