- 简介近期的进展确立了扩散变换器(Diffusion Transformers,简称DiTs)在生成模型中的主导地位。在此成功的基础上,Lumina-Next通过Next-DiT在生成逼真图像方面取得了卓越的表现。然而,其在视频生成方面的潜力尚未得到充分开发,因为视频数据固有的时空复杂性带来了重大挑战。为了解决这一问题,我们引入了Lumina-Video框架,该框架充分利用了Next-DiT的优势,并引入了针对视频合成的定制解决方案。Lumina-Video采用多尺度Next-DiT架构,联合学习多个补丁化方法,以提高效率和灵活性。通过将运动分数作为显式条件,Lumina-Video还能够直接控制生成视频的动态程度。结合逐步提升分辨率和帧率的渐进训练方案,以及混合自然和合成数据的多源训练方案,Lumina-Video在高训练和推理效率下实现了显著的美学质量和运动流畅性。此外,我们还提出了基于Next-DiT的视频到音频模型Lumina-V2A,用于为生成的视频创建同步声音。代码已发布在https://www.github.com/Alpha-VLLM/Lumina-Video。
-
- 图表
- 解决问题该论文试图解决使用Diffusion Transformers (DiTs) 进行视频生成时遇到的挑战,特别是如何有效建模视频数据中的时空复杂性。这是一个相对较新的问题,因为尽管DiTs在图像生成方面取得了成功,但其在视频生成领域的应用仍然有限。
- 关键思路关键思路是引入Lumina-Video框架,它基于Next-DiT架构并进行了改进,以应对视频生成的独特挑战。通过采用多尺度Next-DiT架构、将运动分数作为显式条件以及采用渐进式训练方案,Lumina-Video能够在保持高效率的同时生成高质量的视频。此外,Lumina-V2A模型用于为生成的视频创建同步音频,进一步提升了视频的真实感。
- 其它亮点该研究的亮点包括:1) 提出了多尺度Next-DiT架构,增强了模型的灵活性和效率;2) 引入了运动分数作为条件,实现了对视频动态程度的直接控制;3) 使用渐进式训练方案,逐步提高分辨率和帧率;4) 采用了多源训练方案,结合自然和合成数据进行训练;5) 开发了Lumina-V2A模型,实现了视频与音频的同步生成;6) 代码已开源,方便后续研究和应用。这些设计使得Lumina-Video在视频生成领域具有显著优势,并为未来的研究提供了坚实的基础。
- 最近在这个领域中,相关的研究包括《Temporal Diffusion Models for Video Generation》、《Motion-Aware Video Diffusion Models》和《Progressive Video Generation with Multi-Scale Diffusion Networks》等。这些研究都致力于提升视频生成的质量和效率,特别是在处理时空复杂性和运动一致性方面。Lumina-Video在此基础上进一步创新,通过结合多尺度架构和渐进式训练方案,显著提高了视频生成的效果。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流