- 简介理解3D场景的演变对于有效的自动驾驶至关重要。虽然传统方法使用单个实例的运动模拟场景发展,但世界模型作为描述一般场景动态的生成框架出现。然而,大多数现有方法采用自回归框架进行下一个标记预测,这在建模长期时间演变方面效率低下。为了解决这个问题,我们提出了一种基于扩散的4D占用生成模型OccSora,用于模拟自动驾驶的3D世界发展。我们使用4D场景分词器来获取4D占用输入的紧凑离散时空表示,并实现长序列占用视频的高质量重建。然后,在时空表示上学习扩散变压器,并根据轨迹提示生成4D占用。我们在广泛使用的nuScenes数据集上进行了大量实验,使用Occ3D占用注释。OccSora可以生成16秒的视频,具有真实的3D布局和时间一致性,展示了其理解驾驶场景的空间和时间分布的能力。通过轨迹感知的4D生成,OccSora有潜力成为自动驾驶决策的世界模拟器。代码可在以下网址获得:https://github.com/wzzheng/OccSora。
- 图表
- 解决问题本论文旨在解决自动驾驶中理解3D场景演变的问题,提出了一种基于扩散的4D占据生成模型OccSora,以模拟3D世界的发展。与现有方法相比,该模型可以更高效地建模长期时间演变。
- 关键思路论文的关键思路是使用4D场景分词器获得紧凑的离散时空表示形式,然后在这些表示形式上学习扩散变压器,生成以轨迹提示为条件的4D占据。
- 其它亮点论文使用广泛的nuScenes数据集进行了大量实验,证明了OccSora可以生成具有真实3D布局和时间一致性的16s视频,并具有成为自动驾驶决策世界模拟器的潜力。此外,作者还提供了开源代码。
- 在这个领域中,最近的相关研究包括:《Learning to Simulate Dynamic Environments with GameGAN》、《Video Generation from Text》、《Text-to-3D Scene Generation with Rich Lexical Grounding》等。
沙发等你来抢
去评论
评论
沙发等你来抢