ACT-Bench: Towards Action Controllable World Models for Autonomous Driving

2024年12月06日
  • 简介
    世界模型已经作为自动驾驶的有希望的神经模拟器出现,具有补充稀缺真实数据和实现闭环评估的潜力。然而,当前的研究主要基于视觉逼真度或下游任务性能来评估这些模型,而对特定动作指令的保真度关注较少——这是生成目标模拟场景的关键属性。尽管一些研究涉及动作保真度,但它们的评估依赖于闭源机制,限制了可重复性。为了解决这一差距,我们开发了一个开放访问的评估框架 ACT-Bench,用于量化动作保真度,并提供了一个基线世界模型 Terra。我们的基准测试框架包括一个大规模的数据集,该数据集将 nuScenes 中的短上下文视频与相应的未来轨迹数据配对,这为生成未来的视频帧提供了条件输入,并能够评估执行动作的保真度。此外,Terra 在多个大规模带有轨迹注释的数据集上进行训练,以增强动作保真度。利用这个框架,我们展示了最先进的模型并不能完全遵循给定的指令,而 Terra 则实现了更高的动作保真度。我们基准测试框架的所有组件都将公开提供,以支持未来的研究。
  • 图表
  • 解决问题
    该论文旨在解决当前世界模型在自动驾驶领域评估中的局限性,特别是针对特定动作指令的保真度评估不足的问题。这是一个相对新颖的问题,因为现有的研究主要集中在视觉真实性和下游任务性能上。
  • 关键思路
    论文的关键思路是开发一个开放访问的评估框架ACT-Bench,用于量化动作保真度,并提出一个基线世界模型Terra。这一方法不仅提供了大规模的数据集来支持条件输入生成和动作保真度评估,还通过多源轨迹注释数据集训练模型,以提高动作保真度。相比现有研究,这种方法更注重动作指令的执行准确性。
  • 其它亮点
    论文的主要亮点包括:1) 开发了一个大规模的数据集,结合nuScenes中的短上下文视频和未来轨迹数据;2) 提出了一个基线模型Terra,经过多源数据集训练,提高了动作保真度;3) 通过实验证明了现有模型在动作保真度上的不足,而Terra表现出更好的性能;4) 所有组件和数据集都将公开,支持未来的可重复研究。
  • 相关研究
    近期在自动驾驶世界模型领域的一些相关研究包括:1) "Learning Latent Dynamics for Planning from Pixels",探讨了从像素中学习潜在动态的方法;2) "World Models",提出了结合VAE、RNN和DQN的世界模型框架;3) "DriveSim: A Driving Simulator for Deep Learning Research",介绍了一个用于深度学习研究的驾驶模拟器;4) "Evaluating Generalization in World Models",研究了世界模型在不同环境下的泛化能力。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论