Unleashing Generalization of End-to-End Autonomous Driving with Controllable Long Video Generation

简介

使用生成模型来合成新数据已经成为自动驾驶中解决数据稀缺问题的事实标准。虽然现有方法能够提高感知模型的性能，但我们发现这些方法无法改善端到端自动驾驶模型的规划性能，因为生成的视频通常少于8帧，并且空间和时间上的不一致性不可忽略。因此，我们提出了Delphi，这是一种基于扩散的长视频生成方法，具有跨多视角共享噪声建模机制，以增加空间一致性，以及一个特征对齐模块，以实现精确可控性和时间一致性。我们的方法可以生成长达40帧的视频，而不会丢失一致性，这与现有最先进的方法相比，增加了约5倍。我们进一步设计了一个采样策略，让Delphi生成类似于那些失败案例的新数据，以提高样本效率。这是通过利用预训练的视觉语言模型构建一个基于失败案例的框架来实现的。我们广泛的实验证明，我们的Delphi生成了更高质量的长视频，超过了以前最先进的方法。因此，仅生成训练数据集大小的4％，我们的框架能够首次在我们所知道的范围内，提高端到端自动驾驶模型的规划性能，幅度为25％。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

解决自动驾驶中数据稀缺问题，提高规划模型的性能。
关键思路

提出了一种基于扩散的长视频生成方法，包括共享噪声建模机制和特征对齐模块，能够生成高质量、长达40帧的视频，并设计了一种基于预训练视觉语言模型的故障驱动框架，提高样本效率。
其它亮点

实验结果表明，该方法能够提高自动驾驶规划模型的性能，超过之前的最优方法；使用了开源数据集和代码；值得继续深入研究。
相关研究

与自动驾驶数据生成相关的研究包括：1. Conditional GAN-based methods for data augmentation in autonomous driving；2. Learning to simulate for generating training data for autonomous driving；3. End-to-end learning for self-driving cars with a convolutional neural network。

Unleashing Generalization of End-to-End Autonomous Driving with Controllable Long Video Generation

提问交流

提问交流