- 简介我们介绍了iMotion-LLM:一种多模态大型语言模型,具有轨迹预测功能,旨在引导交互式多智能体场景。与传统的运动预测方法不同,iMotion-LLM利用文本指令作为生成上下文相关轨迹的关键输入。通过在Waymo Open Dataset中增加文本运动指令,我们创造了InstructWaymo,以丰富现实世界的驾驶场景。利用这个数据集,iMotion-LLM集成了一个预训练的LLM,通过LoRA进行微调,将场景特征转换为LLM输入空间。 iMotion-LLM相对于传统的运动预测模型具有显著优势。首先,如果是可行的方向,它可以生成与提供的指令相一致的轨迹。其次,当给出一个不可行的方向时,它可以拒绝指令,从而提高安全性。这些发现成为赋予自主导航系统解释和预测多智能体环境动态的里程碑,为未来在这一领域的进一步发展奠定了基础。
-
- 图表
- 解决问题本文旨在解决多智能体场景下的运动预测问题,通过整合文本指令和场景特征生成上下文相关的轨迹,提高自主导航系统的安全性和可靠性。
- 关键思路本文提出了一种基于大型语言模型的多模态运动预测方法,即iMotion-LLM,通过预训练的LLM和Fine-tuning技术将场景特征转化为LLM输入,从而生成上下文相关的轨迹。iMotion-LLM可以生成与提供的指令相符合的轨迹,同时可以拒绝不可行的指令,提高了安全性。
- 其它亮点本文使用InstructWaymo数据集,证明iMotion-LLM相对于传统运动预测模型具有显著优势。实验结果表明,iMotion-LLM可以生成与指令一致的轨迹,同时可以拒绝不可行的指令。此外,本文提供了一个新的思路,即将文本指令与场景特征结合使用进行运动预测,值得进一步研究。
- 最近的相关研究包括:1)End-to-end Learning for Self-Driving Cars; 2) Probabilistic Multimodal Vehicle Motion Prediction and Risk Assessment; 3) Multi-Modal Trajectory Prediction of Surrounding Vehicles with Maneuver based LSTMs; 4) Learning Multi-modal Safety for Autonomous Driving。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流