OccSora: 4D Occupancy Generation Models as World Simulators for Autonomous Driving

2024年05月30日
  • 简介
    理解3D场景的演变对于有效的自动驾驶至关重要。虽然传统方法使用单个实例的运动模拟场景发展,但世界模型作为描述一般场景动态的生成框架出现。然而,大多数现有方法采用自回归框架进行下一个标记预测,这在建模长期时间演变方面效率低下。为了解决这个问题,我们提出了一种基于扩散的4D占用生成模型OccSora,用于模拟自动驾驶的3D世界发展。我们使用4D场景分词器来获取4D占用输入的紧凑离散时空表示,并实现长序列占用视频的高质量重建。然后,在时空表示上学习扩散变压器,并根据轨迹提示生成4D占用。我们在广泛使用的nuScenes数据集上进行了大量实验,使用Occ3D占用注释。OccSora可以生成16秒的视频,具有真实的3D布局和时间一致性,展示了其理解驾驶场景的空间和时间分布的能力。通过轨迹感知的4D生成,OccSora有潜力成为自动驾驶决策的世界模拟器。代码可在以下网址获得:https://github.com/wzzheng/OccSora。
  • 图表
  • 解决问题
    本论文旨在解决自动驾驶中理解3D场景演变的问题,提出了一种基于扩散的4D占据生成模型OccSora,以模拟3D世界的发展。与现有方法相比,该模型可以更高效地建模长期时间演变。
  • 关键思路
    论文的关键思路是使用4D场景分词器获得紧凑的离散时空表示形式,然后在这些表示形式上学习扩散变压器,生成以轨迹提示为条件的4D占据。
  • 其它亮点
    论文使用广泛的nuScenes数据集进行了大量实验,证明了OccSora可以生成具有真实3D布局和时间一致性的16s视频,并具有成为自动驾驶决策世界模拟器的潜力。此外,作者还提供了开源代码。
  • 相关研究
    在这个领域中,最近的相关研究包括:《Learning to Simulate Dynamic Environments with GameGAN》、《Video Generation from Text》、《Text-to-3D Scene Generation with Rich Lexical Grounding》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论