- 简介Sora揭示了扩展Diffusion Transformer生成逼真图像和视频的潜力,但仍缺乏足够的实现细节。在这份技术报告中,我们介绍了Lumina-T2X系列——一系列配备零初始化注意力的基于流的大型Diffusion Transformer(Flag-DiT),作为一个统一的框架,旨在将噪声转化为图像、视频、多视角3D对象和文本指令条件下的音频片段。通过对潜在的时空空间进行标记化,并结合可学习的占位符,如[nextline]和[nextframe]标记,Lumina-T2X无缝地统一了不同模态在各种时空分辨率下的表示。这种统一的方法使得可以在单个框架内训练不同模态,并允许在推理过程中以任意分辨率、长宽比和长度生成多模态数据。RoPE、RMSNorm和流匹配等高级技术增强了Flag-DiT的稳定性、灵活性和可扩展性,使得Lumina-T2X模型可以扩展到70亿个参数,并将上下文窗口扩展到128K个标记。这对于使用我们的Lumina-T2I模型创建超高清图像和使用我们的Lumina-T2V模型创建长720p视频尤其有益。值得注意的是,由50亿个参数的Flag-DiT驱动的Lumina-T2I仅需要600万个参数的naive DiT的35%的训练计算成本。我们进一步的综合分析强调了Lumina-T2X在分辨率外推、高分辨率编辑、生成一致的3D视图和合成具有无缝转换的视频方面的初步能力。我们期望Lumina-T2X的开源将进一步促进生成AI社区的创造力、透明度和多样性。
-
- 图表
- 解决问题本论文旨在提出一种新的框架Lumina-T2X,通过流式大型扩散变压器(Flag-DiT)和零初始化注意力来生成图像、视频、多视角3D对象和音频剪辑,并在单个框架中统一不同模态的表示,并允许在推理过程中灵活生成多模态数据。
- 关键思路论文提出了一种基于流的大型扩散变压器(Flag-DiT)的框架,通过统一不同模态的表示,实现了灵活生成多模态数据,同时采用RoPE、RMSNorm和流匹配等技术提高了Flag-DiT的稳定性、灵活性和可扩展性。
- 其它亮点论文的亮点包括:采用流式大型扩散变压器(Flag-DiT)和零初始化注意力生成多模态数据;通过统一不同模态的表示,在单个框架中进行训练和推理;采用RoPE、RMSNorm和流匹配等技术提高Flag-DiT的稳定性、灵活性和可扩展性;在分辨率外推、高分辨率编辑、生成一致的3D视图和合成具有无缝转换的视频方面表现出良好的性能。
- 最近在这个领域中,还有一些相关的研究,如:《Generative Pretraining Transformer 3》、《Glow: Generative Flow with Invertible 1x1 Convolutions》、《Flow-based Generative Models》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流