Traj-LLM: A New Exploration for Empowering Trajectory Prediction with Pre-trained Large Language Models

2024年05月08日
  • 简介
    自动驾驶中一个基本的任务是预测动态交通参与者的未来轨迹。尽管现有的研究已经取得了显著的表现提升,但在场景认知和复杂交通语义理解方面仍存在差距。本文提出了Traj-LLM,首次探讨使用大型语言模型(LLMs)生成未来运动的潜力,而无需显式提示工程来分析代理的过去/观察轨迹和场景语义。Traj-LLM从稀疏上下文联合编码开始,将代理和场景特征解析为LLMs可以理解的形式。在此基础上,我们创新地探索了LLMs的强大理解能力,以捕捉高级场景知识和交互信息的各种光谱。为了模拟类人的车道焦点认知功能并增强Traj-LLM的场景理解能力,我们引入了由开创性的Mamba模块驱动的车道感知概率学习。最后,设计了多模式拉普拉斯解码器,以实现符合场景的多模式预测。广泛的实验表明,Traj-LLM,借助LLMs的强大先验知识和理解能力,以及车道感知概率学习,超过了评估指标的最新方法。此外,少样本分析进一步证实了Traj-LLM的性能,在仅使用数据集的50%的情况下,它的表现优于依赖完整数据利用的大多数基准。本研究探索了为轨迹预测任务提供LLMs内在先进能力的方法,为预测代理运动提供了一种更通用和适应性更强的解决方案。
  • 图表
  • 解决问题
    本文旨在解决自动驾驶中的一个核心问题:预测动态交通参与者的未来轨迹。虽然已有不少相关研究,但在场景认知和复杂交通语义方面仍存在差距。
  • 关键思路
    本文提出了Traj-LLM方法,首次探讨了使用大型语言模型(LLMs)生成未来轨迹的潜力,无需显式的提示工程。该方法通过稀疏上下文联合编码将代理和场景特征分解为LLMs能够理解的形式,并利用LLMs的强大理解能力捕捉一系列高级场景知识和交互信息。此外,通过引入基于Mamba模块的车道感知概率学习,模拟人类车道注意力认知功能,进一步增强了Traj-LLM的场景理解能力。最后,设计了多模式拉普拉斯解码器,实现了符合场景的多模式预测。
  • 其它亮点
    本文的亮点包括:通过利用LLMs的先验知识和理解能力,以及车道感知概率学习,Traj-LLM在评估指标上超过了现有的最先进方法;在少样本分析中,Traj-LLM的表现进一步证明了其性能,在仅使用50%的数据集的情况下,就超过了大多数依赖完整数据利用的基准;该研究探索了将轨迹预测任务装备上LLMs的先进能力,为预测新的代理运动提供了更普适和适应性的解决方案。
  • 相关研究
    最近在这个领域中,还有一些相关研究,例如:《Interaction-aware Multi-agent Trajectory Prediction with Dynamic Relational Reasoning》、《Multi-Modal Multi-Step Trajectory Prediction of Surrounding Vehicles with Maneuver based LSTMs》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论