- 简介视觉-语言模型(VLMs)已被应用于自动驾驶中,以支持在复杂现实场景中的决策。然而,这些模型通常是在静态的、来自网络的图文对上进行训练,这从根本上限制了其在理解和预测动态交通场景时所需的精确时空推理能力。我们通过STRIDE-QA填补这一关键空白,这是一个大规模的视觉问答(VQA)数据集,旨在从以自我为中心的视角进行物理基础的推理。STRIDE-QA构建于东京采集的100小时多传感器驾驶数据,涵盖了多样且具有挑战性的交通条件,是目前城市驾驶中用于时空推理的最大规模视觉问答数据集,总共包含28.5万帧、1600万组问答对。该数据集基于密集的自动标注信息,包括三维边界框、分割掩码和多目标轨迹,支持以对象为中心和以自我为中心的推理。它通过三种全新的问答任务,要求模型进行空间定位和时间预测。我们的基准测试表明,现有的视觉-语言模型表现显著不足,在未来预测一致性方面得分接近于零。相比之下,在STRIDE-QA上进行微调后的视觉-语言模型展现出显著的性能提升,在空间定位任务中实现了55%的成功率,在未来运动预测中达到了28%的一致性,而通用视觉-语言模型的表现仍接近于零。因此,STRIDE-QA为开发更可靠、适用于安全关键型自动驾驶系统的视觉-语言模型奠定了坚实基础。
-
- 图表
- 解决问题论文旨在解决当前视觉-语言模型(VLMs)在自动驾驶中进行动态交通场景理解时,因依赖静态图像-文本对训练,而无法进行精确时空推理的问题。这是一个新兴且重要的问题,尤其在自动驾驶等安全敏感的应用中。
- 关键思路提出STRIDE-QA,一个大规模、基于第一视角的视觉问答(VQA)数据集,专为支持物理世界驱动的时空推理而设计。通过使用真实驾驶场景中的多模态传感器数据和密集自动标注,该数据集能够训练模型进行对象中心和自我中心的时空推理。
- 其它亮点1. STRIDE-QA是目前最大的用于城市自动驾驶时空推理的VQA数据集,包含1600万问答对,覆盖285K帧。 2. 数据集基于100小时东京驾驶数据,涵盖多样且复杂的交通条件。 3. 提供3D边界框、分割掩码、多目标跟踪等密集标注,支持细粒度推理。 4. 设计了三个新任务:空间定位、未来动作预测与预测一致性评估。 5. 实验显示现有VLM在该任务上表现不佳,而在STRIDE-QA上微调后显著提升性能。 6. 该数据集为构建更可靠、安全的自动驾驶系统提供了新基础。
- 1. ActionBench: A Vision-Language Benchmark for Action Grounding in Videos 2. VideoBERT: A Joint Model for Video and Language Representation Learning 3. TimeSformer: Is Space-Time Attention All You Need for Video Understanding? 4. BEiT-3: One Model to Learn and Represent Vision and Language with Multi-modal Transformer 5. TransCore: Transformer-based Traffic Scene Understanding and Motion Prediction
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流