Preliminary Investigation into Data Scaling Laws for Imitation Learning-Based End-to-End Autonomous Driving

2024年12月03日
  • 简介
    端到端自动驾驶范式最近因其可扩展性而受到广泛关注。然而,现有方法受限于现实世界数据规模有限,这阻碍了对端到端自动驾驶相关扩展规律的全面探索。为了解决这一问题,我们从各种驾驶场景和行为中收集了大量数据,并对现有的基于模仿学习的端到端自动驾驶范式的扩展规律进行了广泛研究。具体来说,我们收集了来自23种不同场景类型的约400万个演示数据,总计超过30,000小时的驾驶演示。我们在严格的评估条件下,对1,400个多样化的驾驶演示(1,300个用于开环评估,100个用于闭环仿真评估)进行了开环评估和闭环仿真评估。通过实验分析,我们发现:(1) 驾驶模型的性能与训练数据量之间存在幂律关系;(2) 少量增加长尾数据的数量可以显著提高相应场景的性能;(3) 适当的数据扩展使模型能够在新场景和动作中实现组合泛化。我们的结果强调了数据扩展在提高模型在多种自动驾驶场景中的泛化能力方面的关键作用,确保其在现实世界中的安全部署。项目仓库:https://github.com/ucaszyp/Driving-Scaling-Law
  • 作者讲解
  • 图表
  • 解决问题
    该论文旨在解决端到端自主驾驶范式中由于现实世界数据规模有限而无法全面探索其扩展规律的问题。这是一个重要的问题,因为现有的方法受限于数据量,难以充分训练模型以应对各种驾驶场景。
  • 关键思路
    论文的关键思路是通过收集大规模的驾驶数据来研究端到端自主驾驶模型的扩展规律。具体来说,作者收集了约400万次演示,涵盖23种不同场景类型,总时长超过30,000小时。通过这些数据,作者进行了开放环和闭环评估,发现模型性能与训练数据量之间存在幂律关系,并且适当的数据扩展可以显著提高模型在新场景中的泛化能力。这一思路在现有研究中较为新颖,因为它强调了数据规模对模型性能的重要影响。
  • 其它亮点
    论文的亮点包括:(1) 收集了大规模的驾驶数据,涵盖多种场景;(2) 发现了模型性能与数据量之间的幂律关系;(3) 通过实验验证了少量长尾数据的增加可以显著提升特定场景的性能;(4) 模型在适当数据扩展后能够实现组合泛化;(5) 提供了项目代码库,便于复现和进一步研究。未来的研究可以进一步探索如何更高效地收集和利用长尾数据,以及如何在实际部署中确保模型的安全性。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,例如:(1) 'Exploring the Limits of Weakly Supervised Pretraining',探讨了弱监督预训练在视觉任务中的效果;(2) 'Large-Scale Driving Dataset Creation for Autonomous Vehicles',介绍了大规模驾驶数据集的创建方法;(3) 'Scalable and Safe Autonomous Driving via Reinforcement Learning',研究了通过强化学习实现可扩展和安全的自主驾驶。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问