- 简介自动驾驶世界模型需要在状态、动作和奖励这三个核心维度上均具备高效的表现能力。然而,现有的模型通常受限于有限的状态模态、较短的视频序列、控制精度不足的动作机制以及缺乏对奖励的认知。本文提出了OmniNWM,一种全知全景导航世界模型,能够在统一框架下同时应对上述三个维度。在状态方面,OmniNWM能够联合生成包含RGB图像、语义信息、度量深度和3D占据图的全景视频;通过一种灵活的强制策略,实现了高质量的长时程自回归生成。在动作方面,我们提出了一种归一化的全景Plucker射线图表示方法,将输入轨迹编码为像素级信号,从而实现对全景视频生成过程的高度精确且具有泛化能力的控制。在奖励方面,我们不再依赖外部基于图像的模型来学习奖励函数,而是利用生成的3D占据图直接定义基于规则的稠密奖励,用于评估驾驶行为的合规性与安全性。大量实验表明,OmniNWM在视频生成质量、控制精度以及长时程稳定性方面均达到了最先进的水平,同时通过基于占据图的奖励机制提供了可靠的闭环评估框架。项目页面位于 https://github.com/Arlo0o/OmniNWM。
-
- 图表
- 解决问题现有的自动驾驶世界模型通常受限于有限的状态模态、短时视频序列生成、动作控制精度不足以及缺乏对奖励信号的有效建模,难以在状态、动作和奖励三个核心维度上实现统一且高效的建模。这导致长时程生成不稳定、控制泛化能力差,并缺少可靠的内在奖励机制用于闭环评估。该问题在当前自动驾驶仿真与规划中具有挑战性,虽非全新问题,但尚未在统一框架下得到有效解决。
- 关键思路OmniNWM提出一个统一的全知全景导航世界模型框架,同时建模状态、动作与奖励三要素:1)通过联合生成RGB、语义、深度与3D占据栅格的全景视频来增强状态表征;2)引入归一化的全景Plücker光线图表示,将轨迹编码为像素级控制信号,实现高精度动作控制;3)利用生成的3D占据信息直接定义基于规则的密集奖励函数,无需依赖外部视觉模型学习奖励,提升驾驶合规性与安全性的可解释性。其创新在于三者的统一建模与占据感知奖励的内生设计。
- 其它亮点实验表明OmniNWM在视频生成质量、控制精度和长时稳定性方面达到SOTA水平;采用灵活的强制策略支持高质量自回归长序列生成;构建了基于3D占据的闭环评估框架,提供可靠的安全与合规反馈;项目代码已开源(GitHub: https://github.com/Arlo0o/OmniNWM),增强了可复现性;未来可探索其在端到端自动驾驶决策中的集成应用及更复杂城市环境下的泛化能力。
- 1. DriveGPT4: Interpretable Multi-Modal Policy Learning in Urban Environments 2. SceneCrafter: A Generative World Model for Autonomous Driving 3. VAD (Visual Autoregressive Modeling): Ego-centric Video Prediction and Planning 4. TransFuser: Imitation with Transformer-Based Sensor Fusion for Autonomous Driving 5. PlanTF: Trajectory-Centric 3D Occupancy Forecasting for Autonomous Driving
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流