- 简介Sora揭示了扩展Diffusion Transformer生成逼真图像和视频的潜力,但仍缺乏足够的实现细节。在这篇技术报告中,我们介绍了Lumina-T2X系列——一系列基于Flow的大型Diffusion Transformer(Flag-DiT),配备了零初始化的注意力,作为一个统一的框架,旨在将噪声转换为图像、视频、多视角3D对象和文本指令条件下的音频剪辑。通过对潜在的时空空间进行标记化,并结合可学习的占位符,如[nextline]和[nextframe]标记,Lumina-T2X无缝地统一了不同模态在各种时空分辨率下的表示。这种统一的方法使得不同模态的训练可以在单个框架内进行,并允许在推理过程中以任何分辨率、宽高比和长度灵活生成多模态数据。RoPE、RMSNorm和流匹配等先进技术增强了Flag-DiT的稳定性、灵活性和可扩展性,使Lumina-T2X模型的参数规模可达到70亿,并将上下文窗口扩展到128K个标记。这对于使用我们的Lumina-T2I模型创建超高清图像和使用我们的Lumina-T2V模型创建长达720p的视频特别有益。值得注意的是,由50亿参数的Flag-DiT驱动的Lumina-T2I仅需要比600万参数的naive DiT的训练计算成本的35%。我们进一步的综合分析强调了Lumina-T2X在分辨率外推、高分辨率编辑、生成一致的3D视图和合成具有无缝转换的视频方面的初步能力。我们期望Lumina-T2X的开源将进一步促进生成AI社区的创造力、透明度和多样性。
-
- 图表
- 解决问题论文旨在介绍Lumina-T2X系列——一种基于流的大规模扩散变换器(Flag-DiT),旨在将噪声转换为图像、视频、多视角3D对象和音频片段。该框架旨在解决生成高分辨率图像和视频的问题。
- 关键思路Lumina-T2X系列使用了流式架构,并且采用了零初始化的注意力机制。通过对潜在的时空空间进行标记化,并加入可学习的占位符,Lumina-T2X框架无缝地统一了不同模态的表示,实现了在单个框架内训练不同模态的灵活生成。
- 其它亮点论文提出的Lumina-T2X系列模型可以生成高分辨率图像和长视频,而且训练成本较低。论文还介绍了一些增强模型稳定性、灵活性和可扩展性的技术,如RoPE、RMSNorm和流匹配。实验结果表明,Lumina-T2X具有很好的分辨率外推、高分辨率编辑、生成一致的3D视图和无缝转换视频的能力。
- 最近在这个领域中,还有一些相关的研究,如StyleGAN、BigGAN、CLIP等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流