- 简介尽管驾驶世界模型已取得显著进展,其在自动驾驶系统中的潜力仍远未被充分挖掘:目前的世界模型主要用于环境模拟,且与轨迹规划相互分离。虽然近期研究尝试将世界建模与规划统一于单一框架中,但世界模型如何协同促进规划过程的机制仍有待深入探索。在本研究中,我们提出一种名为“策略世界模型”(Policy World Model, PWM)的全新驾驶范式,该模型不仅在统一架构内整合了世界建模与轨迹规划,还能通过所提出的无动作未来状态预测机制,利用学习到的世界知识来提升规划能力。借助协同的状态-动作预测,PWM 能够模拟人类般的前瞻性感知,从而实现更可靠的规划性能。为提高视频预测效率,我们进一步引入了一种动态增强的并行令牌生成机制,该机制配备了上下文引导的分词器和自适应动态聚焦损失函数。尽管仅使用前视摄像头输入,我们的方法在性能上已达到甚至超越依赖多视角、多模态输入的最先进方法。代码与模型权重将发布于 https://github.com/6550Zhao/Policy-World-Model。
-
- 图表
- 解决问题当前驾驶世界模型虽然在环境模拟方面取得了显著进展,但其在自动驾驶系统中的规划能力仍未被充分挖掘。大多数现有方法将世界建模与轨迹规划分离,缺乏二者之间的协同机制。论文试图解决如何有效整合世界建模与决策规划的问题,并验证通过学习到的世界知识来提升规划性能的可行性。
- 关键思路提出一种名为Policy World Model (PWM) 的新驾驶范式,统一世界建模与轨迹规划架构。核心创新在于引入‘无动作未来状态预测’(action-free future state forecasting)机制,使模型能在不依赖显式动作输入的情况下预测未来状态,从而实现类似人类的前瞻性感知。该机制通过协同的状态-动作预测增强规划的可靠性与鲁棒性。
- 其它亮点PWM仅使用前视单摄像头输入,即可达到甚至超越依赖多视角、多模态输入的SOTA方法;提出动态增强的并行token生成机制,结合上下文引导的tokenizer和自适应动态聚焦损失,显著提升视频预测效率;实验在主流自动驾驶基准上进行验证,展示了优越的规划性能;代码与模型权重已开源,项目地址:https://github.com/6550Zhao/Policy-World-Model;未来可探索其在复杂交互场景与端到端控制中的扩展应用。
- 1. Video Prediction Models for Autonomous Driving (ICLR 2023) 2. Planning-oriented Autonomous Driving (CVPR 2023) 3. TransFuser: Imitation with Transformer-Based Sensor Fusion for Autonomous Driving (CVPR 2022) 4. DriveLM: A Language-Action Model for Autonomous Driving (ECCV 2024) 5. UniAD: Unifying Perception, Prediction and Planning for Autonomous Driving (CVPR 2023)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流