LongLive: Real-time Interactive Long Video Generation

向作者提问

NEW

简介

我们提出LongLive，一种用于实时交互式长视频生成的帧级自回归（AR）框架。长视频生成在效率和质量两方面均面临挑战。扩散模型（Diffusion）和扩散强制（Diffusion-Forcing）模型虽能生成高质量视频，但由于采用双向注意力机制，导致生成效率低下。因果注意力自回归模型支持KV缓存，可加快推理速度，但在长视频训练过程中常因内存压力而导致生成质量下降。此外，除了基于静态提示词的生成外，动态内容创作还需要具备交互能力，例如支持流式输入提示词，使用户能够实时引导视频叙事走向。这一交互需求显著增加了系统复杂性，尤其是在提示词切换过程中保持画面一致性和语义连贯性方面。为应对这些挑战，LongLive采用因果式的帧级自回归架构，并引入三项关键技术：其一是KV重缓存机制，能够在接收新提示词时刷新缓存状态，实现平滑且贴合的切换；其二是流式长时微调（streaming long tuning），支持长视频训练，并确保训练与推理模式一致（即“长训长测”）；其三是短窗口注意力配合帧级注意力锚点（frame-level attention sink，简称frame sink），在保证长时程一致性的同时提升生成速度。基于这些核心设计，LongLive仅用32个GPU日即可将一个13亿参数的短片段模型微调为支持分钟级视频生成的模型。在推理阶段，LongLive在单块NVIDIA H100 GPU上可达20.7帧/秒的生成速度，在VBench评测中对短视频和长视频均表现出色，最高可在单卡上生成长达240秒的视频。此外，LongLive还支持INT8量化推理，仅带来轻微的质量损失。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

论文旨在解决长视频生成中的效率与质量问题，尤其是现有扩散模型因双向注意力导致推理效率低下，而因果自回归模型在长序列训练中面临显存和一致性挑战。此外，支持交互式流式提示输入的动态内容生成需求增加了视觉连贯性和语义一致性的难度。这是一个新兴且重要的问题，随着对实时、可交互视频生成应用的需求增长，亟需兼顾速度、质量和灵活性的框架。
关键思路

LongLive提出一种帧级自回归架构，结合因果注意力机制以支持KV缓存加速推理，并引入KV重缓存机制实现流式提示切换时的平滑过渡；采用流式长调优策略（train-long-test-long）提升长视频训练稳定性；通过短窗口注意力配合‘帧级注意力锚点’（frame sink）保持长期一致性。其关键创新在于将高效推理机制与长序列建模能力有机结合，在不牺牲质量的前提下实现分钟级高清视频的实时生成。
其它亮点

基于1.3B参数的短片段模型，仅用32 GPU天完成微调，即可生成长达240秒的视频；单张NVIDIA H100上实现20.7 FPS的高速推理，支持INT8量化部署且质量损失极小；在VBench基准上表现出色，涵盖长短视频多维度评估；该工作为实时交互式视频创作提供了可行路径，未来可拓展至多模态驱动、低延迟编辑等方向；暂未提及代码是否开源。
相关研究

相关研究包括：'VideoGPT: Video Generation using VQ-VAE and Transformers'（2020），'Scaling Autoregressive Models for Content-Rich Text-to-Video Generation'（2023），'DiT: Scalable Diffusion Models with Transformers'（2023），'Flow consistency in Diffusion Models for Long Video Generation'（2024），以及'Interactive Video Generation with Streaming Prompts via Latent Diffusion Forcing'（2024）。这些工作分别探索了基于Transformer的自回归建模、扩散模型扩展性、长视频一致性优化及交互式生成机制，构成该领域的重要基础。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问