BEVWorld: A Multimodal World Model for Autonomous Driving via Unified BEV Latent Space

2024年07月08日
  • 简介
    本文介绍了一种名为BEVWorld的新方法,该方法将多模态传感器输入令牌化为统一且紧凑的鸟瞰图(BEV)潜在空间以进行环境建模,具有预测潜在未来场景的能力。该世界模型由两部分组成:多模态令牌化器和潜在BEV序列扩散模型。多模态令牌化器首先对多模态信息进行编码,解码器能够通过自我监督的光线投射渲染将潜在BEV令牌重构为LiDAR和图像观察结果。然后,潜在BEV序列扩散模型根据动作令牌作为条件预测未来场景。实验证明,BEVWorld在自动驾驶任务中具有有效性,展示了其生成未来场景和有益于下游任务(如感知和运动预测)的能力。代码可在https://github.com/zympsyche/BevWorld上获得。
  • 作者讲解
  • 图表
  • 解决问题
    BEVWorld试图解决自动驾驶中的环境建模问题,即如何将多模态传感器数据编码成紧凑的Bird's Eye View(BEV)潜在空间,以便预测未来场景。
  • 关键思路
    BEVWorld的关键思路是将多模态传感器数据编码成BEV潜在空间,并使用序列扩散模型预测未来场景。该模型在自我监督的情况下,通过射线投射渲染将BEV潜在空间的重构解码为LiDAR和图像观察值。
  • 其它亮点
    该论文提出了一种新颖的方法来解决自动驾驶中的环境建模问题,展示了BEVWorld在自动驾驶任务中生成未来场景的能力,并有助于下游任务(如感知和运动预测)。BEVWorld还提供了开源代码。
  • 相关研究
    最近在自动驾驶领域中,也有其他相关研究,例如:1)End-to-End Learning of Driving Models from Large-Scale Video Datasets;2)Conditional Imitation Learning for Structured Prediction in Autonomous Driving;3)DeepMimic: Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问