VisionTrap: Vision-Augmented Trajectory Prediction Guided by Textual Descriptions

向作者提问

NEW

简介

预测其他道路车辆未来轨迹是自动驾驶汽车的重要任务。已有的轨迹预测方法主要使用检测和跟踪系统生成的车辆轨迹和高清地图作为输入。在本研究中，我们提出了一种新方法，它还结合了环视摄像头的视觉输入，使模型能够利用视觉线索，如人类注视和手势、道路条件、车辆转向信号等，这些在先前的方法中通常对模型隐藏。此外，我们使用由视觉语言模型（VLM）生成并由大型语言模型（LLM）进行精炼的文本描述作为训练期间的监督，以指导模型从输入数据中学习。尽管使用了这些额外的输入，我们的方法实现了53毫秒的延迟，使其适用于实时处理，这比以前具有类似性能的单一代理预测方法的延迟显著更快。我们的实验表明，视觉输入和文本描述都有助于提高轨迹预测性能，我们的定性分析突出了模型如何利用这些额外的输入。最后，在本研究中，我们创建并发布了nuScenes-Text数据集，它通过为每个场景提供丰富的文本注释来增强已有的nuScenes数据集，展示了利用VLM对轨迹预测的积极影响。我们的项目页面位于https://moonseokha.github.io/VisionTrap/。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决自动驾驶车辆预测其他车辆轨迹时缺乏视觉输入和文本描述的问题。
关键思路

论文提出一种新方法，将环视摄像机的视觉输入和文本描述与传统的输入数据结合起来，以提高轨迹预测性能。
其它亮点

该方法能够利用隐藏在视觉和文本输入中的人类注视和手势、道路状况、车辆转向信号等信息，实现更好的轨迹预测性能。使用Vision-Language Model（VLM）和Large Language Model（LLM）生成文本描述，以指导模型从输入数据中学习。在实验中，该方法的延迟时间为53毫秒，比以前类似性能的单一代理预测方法要快得多。该论文还创建并发布了nuScenes-Text数据集，为每个场景增加了丰富的文本注释，证明了利用VLM对轨迹预测的积极影响。
相关研究

最近的相关研究包括：1. End-to-End Multi-Modal Multi-Object Tracking (EEMMOT); 2. Learning Multi-Modal Multi-Object Tracking by Comparison and Aggregation (M3CT-CA); 3. Multi-Modal Multi-Object Tracking with Relational Transformers (MMOT-RT)。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问