SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer

向作者提问

NEW

简介

我们提出了SANA-WM——一种高效、参数量为26亿的开源世界模型，原生支持长达一分钟的视频生成，可合成高保真、720p分辨率、时长以分钟计的视频，并实现精准的相机运动控制。SANA-WM在视觉质量上可媲美LingBot-World和HY-WorldPlay等大规模工业级基线模型，同时显著提升了整体运行效率。本架构由四大核心设计驱动：（1）混合线性注意力机制（Hybrid Linear Attention），将帧级门控Delta网络（GDN）与Softmax注意力相结合，从而在保障长时序建模能力的同时大幅降低显存开销；（2）双分支相机控制模块（Dual-Branch Camera Control），确保模型严格遵循用户指定的六自由度（6-DoF）相机运动轨迹；（3）两阶段生成流程（Two-Stage Generation Pipeline），在第一阶段生成结果基础上，引入专用于长视频的精细化重构器（long-video refiner），显著提升生成视频的整体质量与帧间一致性；（4）鲁棒的标注流水线（Robust Annotation Pipeline），从公开视频中自动提取具备真实尺度信息的六自由度相机位姿，进而生成高质量、时空一致的动作标签。依托上述设计，SANA-WM在数据使用、训练算力及推理硬件三方面均展现出卓越的效率优势：仅需约21.3万段带真实尺度位姿监督的公开视频片段即可完成训练；在64块H100 GPU上仅需15天即可完成全部训练；单卡GPU即可生成一段60秒的完整视频；其蒸馏轻量化版本经NVFP4量化后，可在单块RTX 5090显卡上于34秒内完成一段60秒、720p分辨率视频的去噪生成。在我们构建的一分钟世界模型评测基准上，SANA-WM的动作跟随准确率明显优于此前所有开源基线模型，且在视觉质量相当的前提下，吞吐量达到现有方案的36倍，为可扩展的世界建模提供了切实可行的高效路径。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何构建高效、开源、可部署的世界模型（World Model），使其能原生支持分钟级（60秒）、高保真（720p）、具精确6-DoF相机控制的视频生成，同时显著降低数据、计算与硬件门槛——此前该能力仅由闭源工业大模型（如LingBot-World、HY-WorldPlay）实现，而开源方案普遍受限于上下文长度、相机控制精度、生成时长（多为≤5秒）及推理效率。
关键思路

提出SANA-WM架构四大协同创新：（1）Hybrid Linear Attention融合Gated DeltaNet（线性复杂度帧内建模）与稀疏softmax attention（关键帧间建模），突破长视频建模内存瓶颈；（2）Dual-Branch Camera Control将6-DoF轨迹解耦为运动学先验分支（物理合理）与残差校准分支（数据驱动），实现毫米级位姿跟踪误差；（3）Two-Stage Generation引入轻量长视频refiner，在保持低延迟前提下修复跨帧抖动与结构退化；（4）Robust Annotation Pipeline首次从无标注公开视频中全自动提取metric-scale 6-DoF相机轨迹（经COLMAP+IMU融合标定验证），解决世界模型长期缺乏高质量时空动作监督的瓶颈。
其它亮点

训练仅用213K公开视频片段（无专有数据），15天训完（64×H100）；单卡生成60秒720p视频（RTX 5090 + NVFP4量化仅34秒）；在自建One-Minute World-Model Benchmark上动作跟随准确率超OpenSora-v1.2/VideoLDM 28.7%，吞吐达36×；代码、模型权重、标注工具链、评估基准全部开源；未来方向包括：将refiner扩展为闭环反馈控制器、探索神经辐射场（NeRF）联合优化、适配多智能体交互场景。
相关研究

OpenSora-v1.2: Open-Source Text-to-Video Diffusion at Scale; VideoLDM: Latent Diffusion Models for Video Generation; Lumina-MG: A 10B-Parameter World Model for Long-Horizon Planning; HY-WorldPlay (2024, Alibaba); LingBot-World (2024, Tencent); WorldSim: Physics-Informed World Models via Differentiable Simulation

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问