- 简介本文介绍了一种名为BEVWorld的新方法,该方法将多模态传感器输入令牌化为统一且紧凑的鸟瞰图(BEV)潜在空间以进行环境建模,具有预测潜在未来场景的能力。该世界模型由两部分组成:多模态令牌化器和潜在BEV序列扩散模型。多模态令牌化器首先对多模态信息进行编码,解码器能够通过自我监督的光线投射渲染将潜在BEV令牌重构为LiDAR和图像观察结果。然后,潜在BEV序列扩散模型根据动作令牌作为条件预测未来场景。实验证明,BEVWorld在自动驾驶任务中具有有效性,展示了其生成未来场景和有益于下游任务(如感知和运动预测)的能力。代码可在https://github.com/zympsyche/BevWorld上获得。
-
- 图表
- 解决问题BEVWorld试图解决自动驾驶中的环境建模问题,即如何将多模态传感器数据编码成紧凑的Bird's Eye View(BEV)潜在空间,以便预测未来场景。
- 关键思路BEVWorld的关键思路是将多模态传感器数据编码成BEV潜在空间,并使用序列扩散模型预测未来场景。该模型在自我监督的情况下,通过射线投射渲染将BEV潜在空间的重构解码为LiDAR和图像观察值。
- 其它亮点该论文提出了一种新颖的方法来解决自动驾驶中的环境建模问题,展示了BEVWorld在自动驾驶任务中生成未来场景的能力,并有助于下游任务(如感知和运动预测)。BEVWorld还提供了开源代码。
- 最近在自动驾驶领域中,也有其他相关研究,例如:1)End-to-End Learning of Driving Models from Large-Scale Video Datasets;2)Conditional Imitation Learning for Structured Prediction in Autonomous Driving;3)DeepMimic: Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流