Lumina-Video: Efficient and Flexible Video Generation with Multi-scale Next-DiT

向作者提问

NEW

简介

近期的进展确立了扩散变换器（Diffusion Transformers，简称DiTs）在生成模型中的主导地位。在此成功的基础上，Lumina-Next通过Next-DiT在生成逼真图像方面取得了卓越的表现。然而，其在视频生成方面的潜力尚未得到充分开发，因为视频数据固有的时空复杂性带来了重大挑战。为了解决这一问题，我们引入了Lumina-Video框架，该框架充分利用了Next-DiT的优势，并引入了针对视频合成的定制解决方案。Lumina-Video采用多尺度Next-DiT架构，联合学习多个补丁化方法，以提高效率和灵活性。通过将运动分数作为显式条件，Lumina-Video还能够直接控制生成视频的动态程度。结合逐步提升分辨率和帧率的渐进训练方案，以及混合自然和合成数据的多源训练方案，Lumina-Video在高训练和推理效率下实现了显著的美学质量和运动流畅性。此外，我们还提出了基于Next-DiT的视频到音频模型Lumina-V2A，用于为生成的视频创建同步声音。代码已发布在https://www.github.com/Alpha-VLLM/Lumina-Video。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

该论文试图解决使用Diffusion Transformers (DiTs) 进行视频生成时遇到的挑战，特别是如何有效建模视频数据中的时空复杂性。这是一个相对较新的问题，因为尽管DiTs在图像生成方面取得了成功，但其在视频生成领域的应用仍然有限。
关键思路

关键思路是引入Lumina-Video框架，它基于Next-DiT架构并进行了改进，以应对视频生成的独特挑战。通过采用多尺度Next-DiT架构、将运动分数作为显式条件以及采用渐进式训练方案，Lumina-Video能够在保持高效率的同时生成高质量的视频。此外，Lumina-V2A模型用于为生成的视频创建同步音频，进一步提升了视频的真实感。
其它亮点

该研究的亮点包括：1) 提出了多尺度Next-DiT架构，增强了模型的灵活性和效率；2) 引入了运动分数作为条件，实现了对视频动态程度的直接控制；3) 使用渐进式训练方案，逐步提高分辨率和帧率；4) 采用了多源训练方案，结合自然和合成数据进行训练；5) 开发了Lumina-V2A模型，实现了视频与音频的同步生成；6) 代码已开源，方便后续研究和应用。这些设计使得Lumina-Video在视频生成领域具有显著优势，并为未来的研究提供了坚实的基础。
相关研究

最近在这个领域中，相关的研究包括《Temporal Diffusion Models for Video Generation》、《Motion-Aware Video Diffusion Models》和《Progressive Video Generation with Multi-Scale Diffusion Networks》等。这些研究都致力于提升视频生成的质量和效率，特别是在处理时空复杂性和运动一致性方面。Lumina-Video在此基础上进一步创新，通过结合多尺度架构和渐进式训练方案，显著提高了视频生成的效果。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问