AMP: Autoregressive Motion Prediction Revisited with Next Token Prediction for Autonomous Driving

2024年03月20日
  • 简介
    在自动驾驶中,运动预测是导航的关键任务之一,旨在预测周围物体的未来状态。一种自然的解决方案是逐步估计其他代理的位置,其中每个预测的时间步都取决于观察到的时间步和先前预测的时间步,即自回归预测。像SocialLSTM和MFP这样的开创性工作基于这种直觉设计了它们的解码器。然而,几乎所有最先进的工作都假设所有预测的时间步都是独立的,条件是观察到的时间步,其中它们使用单个线性层同时生成所有时间步的位置。由于相对于自回归网络,训练MLP的简单性,它们在大多数运动预测排行榜中占主导地位。 在本文中,我们将GPT风格的下一个标记预测引入到运动预测中。通过这种方式,输入和输出可以在一个统一的空间中表示,因此自回归预测变得更加可行。然而,与由同质单元-单词组成的语言数据不同,驾驶场景中的元素可能具有复杂的时空和语义关系。为此,我们提出采用三个分解注意力模块,具有不同的邻居信息聚合和不同的位置编码风格来捕捉它们的关系,例如,对于空间相关性,编码坐标系之间的转换,同时采用RoPE来捕捉时间相关性。实证结果表明,通过配备上述定制设计,所提出的方法在Waymo Open Motion和Waymo Interaction数据集中实现了最先进的性能。值得注意的是,AMP优于其他最近的自回归运动预测方法:MotionLM和StateTransformer,这证明了所提出的设计的有效性。
  • 图表
  • 解决问题
    该论文旨在解决自动驾驶中的运动预测问题,提出了一种基于GPT的自回归预测方法,并针对驾驶场景中元素之间的复杂空间-时间和语义关系,提出了三种分解式注意力机制和不同的位置编码方式。
  • 关键思路
    论文提出了一种基于GPT的自回归预测方法,将输入和输出表示为统一空间,使得自回归预测更加可行。同时,针对驾驶场景中元素之间的复杂关系,提出了三种分解式注意力机制和不同的位置编码方式。
  • 其它亮点
    论文采用了Waymo Open Motion和Waymo Interaction数据集进行实验,并取得了最先进的性能。该方法的有效性得到了MotionLM和StateTransformer等最近的自回归运动预测方法的超越。论文还开源了代码。
  • 相关研究
    与该论文相关的研究包括SocialLSTM和MFP等早期的自回归预测方法,以及MotionLM和StateTransformer等最近的自回归运动预测方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论