OccSora: 4D Occupancy Generation Models as World Simulators for Autonomous Driving

简介

理解3D场景的演变对于有效的自动驾驶至关重要。虽然传统方法使用单个实例的运动模拟场景发展，但世界模型作为描述一般场景动态的生成框架出现。然而，大多数现有方法采用自回归框架进行下一个标记预测，这在建模长期时间演变方面效率低下。为了解决这个问题，我们提出了一种基于扩散的4D占用生成模型OccSora，用于模拟自动驾驶的3D世界发展。我们使用4D场景分词器来获取4D占用输入的紧凑离散时空表示，并实现长序列占用视频的高质量重建。然后，在时空表示上学习扩散变压器，并根据轨迹提示生成4D占用。我们在广泛使用的nuScenes数据集上进行了大量实验，使用Occ3D占用注释。OccSora可以生成16秒的视频，具有真实的3D布局和时间一致性，展示了其理解驾驶场景的空间和时间分布的能力。通过轨迹感知的4D生成，OccSora有潜力成为自动驾驶决策的世界模拟器。代码可在以下网址获得：https://github.com/wzzheng/OccSora。
图表
解决问题

本论文旨在解决自动驾驶中理解3D场景演变的问题，提出了一种基于扩散的4D占据生成模型OccSora，以模拟3D世界的发展。与现有方法相比，该模型可以更高效地建模长期时间演变。
关键思路

论文的关键思路是使用4D场景分词器获得紧凑的离散时空表示形式，然后在这些表示形式上学习扩散变压器，生成以轨迹提示为条件的4D占据。
其它亮点

论文使用广泛的nuScenes数据集进行了大量实验，证明了OccSora可以生成具有真实3D布局和时间一致性的16s视频，并具有成为自动驾驶决策世界模拟器的潜力。此外，作者还提供了开源代码。
相关研究

在这个领域中，最近的相关研究包括：《Learning to Simulate Dynamic Environments with GameGAN》、《Video Generation from Text》、《Text-to-3D Scene Generation with Rich Lexical Grounding》等。

OccSora: 4D Occupancy Generation Models as World Simulators for Autonomous Driving

评论