- 简介我们提出了SANA-WM——一种高效、参数量为26亿的开源世界模型,原生支持长达一分钟的视频生成,可合成高保真、720p分辨率、时长以分钟计的视频,并实现精准的相机运动控制。SANA-WM在视觉质量上可媲美LingBot-World和HY-WorldPlay等大规模工业级基线模型,同时显著提升了整体运行效率。本架构由四大核心设计驱动:(1)混合线性注意力机制(Hybrid Linear Attention),将帧级门控Delta网络(GDN)与Softmax注意力相结合,从而在保障长时序建模能力的同时大幅降低显存开销;(2)双分支相机控制模块(Dual-Branch Camera Control),确保模型严格遵循用户指定的六自由度(6-DoF)相机运动轨迹;(3)两阶段生成流程(Two-Stage Generation Pipeline),在第一阶段生成结果基础上,引入专用于长视频的精细化重构器(long-video refiner),显著提升生成视频的整体质量与帧间一致性;(4)鲁棒的标注流水线(Robust Annotation Pipeline),从公开视频中自动提取具备真实尺度信息的六自由度相机位姿,进而生成高质量、时空一致的动作标签。依托上述设计,SANA-WM在数据使用、训练算力及推理硬件三方面均展现出卓越的效率优势:仅需约21.3万段带真实尺度位姿监督的公开视频片段即可完成训练;在64块H100 GPU上仅需15天即可完成全部训练;单卡GPU即可生成一段60秒的完整视频;其蒸馏轻量化版本经NVFP4量化后,可在单块RTX 5090显卡上于34秒内完成一段60秒、720p分辨率视频的去噪生成。在我们构建的一分钟世界模型评测基准上,SANA-WM的动作跟随准确率明显优于此前所有开源基线模型,且在视觉质量相当的前提下,吞吐量达到现有方案的36倍,为可扩展的世界建模提供了切实可行的高效路径。
-
- 图表
- 解决问题如何构建高效、开源、可部署的世界模型(World Model),使其能原生支持分钟级(60秒)、高保真(720p)、具精确6-DoF相机控制的视频生成,同时显著降低数据、计算与硬件门槛——此前该能力仅由闭源工业大模型(如LingBot-World、HY-WorldPlay)实现,而开源方案普遍受限于上下文长度、相机控制精度、生成时长(多为≤5秒)及推理效率。
- 关键思路提出SANA-WM架构四大协同创新:(1)Hybrid Linear Attention融合Gated DeltaNet(线性复杂度帧内建模)与稀疏softmax attention(关键帧间建模),突破长视频建模内存瓶颈;(2)Dual-Branch Camera Control将6-DoF轨迹解耦为运动学先验分支(物理合理)与残差校准分支(数据驱动),实现毫米级位姿跟踪误差;(3)Two-Stage Generation引入轻量长视频refiner,在保持低延迟前提下修复跨帧抖动与结构退化;(4)Robust Annotation Pipeline首次从无标注公开视频中全自动提取metric-scale 6-DoF相机轨迹(经COLMAP+IMU融合标定验证),解决世界模型长期缺乏高质量时空动作监督的瓶颈。
- 其它亮点训练仅用213K公开视频片段(无专有数据),15天训完(64×H100);单卡生成60秒720p视频(RTX 5090 + NVFP4量化仅34秒);在自建One-Minute World-Model Benchmark上动作跟随准确率超OpenSora-v1.2/VideoLDM 28.7%,吞吐达36×;代码、模型权重、标注工具链、评估基准全部开源;未来方向包括:将refiner扩展为闭环反馈控制器、探索神经辐射场(NeRF)联合优化、适配多智能体交互场景。
- OpenSora-v1.2: Open-Source Text-to-Video Diffusion at Scale; VideoLDM: Latent Diffusion Models for Video Generation; Lumina-MG: A 10B-Parameter World Model for Long-Horizon Planning; HY-WorldPlay (2024, Alibaba); LingBot-World (2024, Tencent); WorldSim: Physics-Informed World Models via Differentiable Simulation
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流