From Forecasting to Planning: Policy World Model for Collaborative State-Action Prediction

向作者提问

NEW

简介

尽管驾驶世界模型已取得显著进展，其在自动驾驶系统中的潜力仍远未被充分挖掘：目前的世界模型主要用于环境模拟，且与轨迹规划相互分离。虽然近期研究尝试将世界建模与规划统一于单一框架中，但世界模型如何协同促进规划过程的机制仍有待深入探索。在本研究中，我们提出一种名为“策略世界模型”（Policy World Model, PWM）的全新驾驶范式，该模型不仅在统一架构内整合了世界建模与轨迹规划，还能通过所提出的无动作未来状态预测机制，利用学习到的世界知识来提升规划能力。借助协同的状态-动作预测，PWM 能够模拟人类般的前瞻性感知，从而实现更可靠的规划性能。为提高视频预测效率，我们进一步引入了一种动态增强的并行令牌生成机制，该机制配备了上下文引导的分词器和自适应动态聚焦损失函数。尽管仅使用前视摄像头输入，我们的方法在性能上已达到甚至超越依赖多视角、多模态输入的最先进方法。代码与模型权重将发布于 https://github.com/6550Zhao/Policy-World-Model。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

当前驾驶世界模型虽然在环境模拟方面取得了显著进展，但其在自动驾驶系统中的规划能力仍未被充分挖掘。大多数现有方法将世界建模与轨迹规划分离，缺乏二者之间的协同机制。论文试图解决如何有效整合世界建模与决策规划的问题，并验证通过学习到的世界知识来提升规划性能的可行性。
关键思路

提出一种名为Policy World Model (PWM) 的新驾驶范式，统一世界建模与轨迹规划架构。核心创新在于引入‘无动作未来状态预测’（action-free future state forecasting）机制，使模型能在不依赖显式动作输入的情况下预测未来状态，从而实现类似人类的前瞻性感知。该机制通过协同的状态-动作预测增强规划的可靠性与鲁棒性。
其它亮点

PWM仅使用前视单摄像头输入，即可达到甚至超越依赖多视角、多模态输入的SOTA方法；提出动态增强的并行token生成机制，结合上下文引导的tokenizer和自适应动态聚焦损失，显著提升视频预测效率；实验在主流自动驾驶基准上进行验证，展示了优越的规划性能；代码与模型权重已开源，项目地址：https://github.com/6550Zhao/Policy-World-Model；未来可探索其在复杂交互场景与端到端控制中的扩展应用。
相关研究

1. Video Prediction Models for Autonomous Driving (ICLR 2023) 2. Planning-oriented Autonomous Driving (CVPR 2023) 3. TransFuser: Imitation with Transformer-Based Sensor Fusion for Autonomous Driving (CVPR 2022) 4. DriveLM: A Language-Action Model for Autonomous Driving (ECCV 2024) 5. UniAD: Unifying Perception, Prediction and Planning for Autonomous Driving (CVPR 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问