- 简介本文介绍了自动驾驶领域中第一个大规模视频预测模型。为了消除高成本数据收集的限制并增强我们的模型的泛化能力,我们从网络上获取了大量数据,并将其与多样化和高质量的文本描述配对。所得到的数据集累计了超过2000小时的驾驶视频,涵盖了全球各地的区域,包括多种天气条件和交通情况。继承了最近的潜在扩散模型的优点,我们的模型名为GenAD,使用新颖的时间推理块处理驾驶场景中具有挑战性的动态。我们展示了它可以以零样本方式推广到各种未见过的驾驶数据集,超过了一般或驾驶特定的视频预测对手。此外,GenAD可以适应于动作条件的预测模型或运动规划器,具有实际驾驶应用的巨大潜力。
- 图表
- 解决问题论文旨在解决自动驾驶领域中的视频预测问题,通过从网络上获取大量数据和高质量文本描述来提高模型的泛化能力。
- 关键思路论文提出了一种名为GenAD的模型,利用最新的潜在扩散模型和新颖的时间推理块来处理自动驾驶场景中的复杂动态。该模型可以在零样本情况下推广到各种未见过的驾驶数据集,具有很强的适应性和泛化能力。
- 其它亮点该模型使用了超过2000小时的驾驶视频数据集,覆盖了世界各地的多个地区和不同的天气和交通状况。此外,该模型可以适应动作条件预测模型或运动规划器,具有很强的实际应用潜力。
- 最近在这个领域中,还有一些相关的研究,例如:1)'Learning to Drive using Inverse Reinforcement Learning and Deep Q-Networks',2)'End-to-End Learning of Driving Models from Large-Scale Video Datasets',3)'ChauffeurNet: Learning to Drive by Imitating the Best and Synthesizing the Worst'等。
沙发等你来抢
去评论
评论
沙发等你来抢