Robust Autonomy Emerges from Self-Play

2025年02月05日
  • 简介
    自我对弈在二人和多人游戏中推动了重大突破。在这里,我们展示自我对弈在另一个领域中也是一种令人惊讶的有效策略。我们证明,稳健且自然的驾驶行为完全可以通过模拟中的自我对弈以前所未有的规模涌现出来——16亿公里的驾驶数据。这得益于Gigaflow,一个批量模拟器,它可以在单个8-GPU节点上每小时合成并训练相当于42年的主观驾驶经验。由此产生的策略在三个独立的自动驾驶基准测试中达到了最先进的性能。当在记录的真实世界场景中进行测试时,该策略在人类驾驶员中表现出色,超过了之前的最先进水平,而在训练过程中从未使用过人类驾驶数据。与人类参考相比,该策略表现得非常逼真,并且在模拟中实现了前所未有的稳健性,平均可以在两次事件之间连续驾驶17.5年。
  • 图表
  • 解决问题
    该论文试图通过自博弈(self-play)的方法解决自动驾驶领域中的驾驶策略学习问题。它验证了是否可以通过大规模模拟环境中的自博弈训练出一个能够在真实世界中表现优异且未见过人类驾驶数据的自动驾驶策略。这是一个新颖的问题,因为以往的研究通常依赖于大量的真实世界或人类驾驶数据。
  • 关键思路
    关键思路是利用自博弈机制,在没有人类示范数据的情况下,通过大规模模拟来学习自然且稳健的驾驶行为。相比现有研究,这篇论文的新意在于它展示了仅依靠模拟环境中的自我对抗性学习就能达到甚至超越现有方法的效果,特别是在从未接触过真实人类驾驶数据的前提下。
  • 其它亮点
    论文的亮点包括:1) 使用Gigaflow这一批处理模拟器实现了前所未有的大规模仿真(16亿公里),大大提高了训练效率;2) 在三个独立的自动驾驶基准测试中达到了最先进的性能水平;3) 实验设计严格,不仅在模拟环境中表现出色,还在真实世界场景中展现了优越性能;4) 提供了开源代码和详细的实验设置说明,便于后续研究者复现结果并进一步探索。
  • 相关研究
    最近在这个领域中,相关的研究还包括:1)《Learning to Drive from Simulation without Real-World Labels》, 探讨了如何从模拟环境中学习而不需要真实标签;2)《End-to-End Learning for Self-Driving Cars》, 研究了端到端学习应用于自动驾驶的可能性;3)《Deep Learning for Computer Vision with Limited Training Data》, 虽然不是直接针对自动驾驶,但讨论了有限训练数据下的深度学习应用。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论