Impromptu VLA: Open Weights and Open Data for Driving Vision-Language-Action Models

2025年05月29日
  • 简介
    用于自动驾驶的视觉-语言-动作(VLA)模型展现出潜力,但在非结构化的极端场景中表现不佳,主要原因在于缺乏针对性的基准测试。为了解决这一问题,我们提出了即兴VLA(Impromptu VLA)。我们的核心贡献是即兴VLA数据集:超过80,000段精心挑选的视频片段,这些片段从8个开源大规模数据集中提取的200多万个源片段中提炼而来。该数据集基于我们提出的四种具有挑战性的非结构化类别新型分类法,并包含丰富且面向规划的问题-回答注释及动作轨迹。关键的是,实验表明,使用我们数据集训练的VLA模型在现有基准测试中实现了显著的性能提升——提高了闭环NeuroNCAP评分和降低了碰撞率,并在开环nuScenes轨迹预测任务中达到了接近最先进水平的L2精度。此外,我们的问答套件作为一种有效的诊断工具,揭示了视觉语言模型(VLM)在感知、预测和规划方面的明显改进。我们的代码、数据和模型可在以下链接获取:https://github.com/ahydchh/Impromptu-VLA。
  • 图表
  • 解决问题
    论文试图解决当前视觉-语言-动作(VLA)模型在自动驾驶领域中对复杂、非结构化场景处理能力不足的问题,尤其是针对稀缺的针对性基准测试数据所导致的性能瓶颈。这是一个已知但尚未完全解决的问题。
  • 关键思路
    论文的核心思路是通过构建一个大规模、高质量的Impromptu VLA Dataset来填补这一空白。该数据集包含超过80,000个精心筛选的视频片段,并引入了一种新的分类方法,涵盖四种具有挑战性的非结构化场景类别。此外,数据集中还包含了丰富的规划导向型问答注释和动作轨迹,旨在提升VLA模型在感知、预测和规划方面的能力。相比现有研究,这篇论文通过系统化的数据设计和任务定义,显著增强了模型在真实世界复杂场景中的泛化能力。
  • 其它亮点
    论文的主要亮点包括:1) 构建了一个高质量的大规模数据集Impromptu VLA Dataset,其中包含80,000个视频片段;2) 数据集支持多种任务,如问答诊断、轨迹预测等;3) 实验表明,在多个基准测试中(如NeuroNCAP、nuScenes),模型性能显著提升;4) 提供了开源代码、数据和预训练模型,便于社区复现和进一步研究;5) 论文提出的工作为未来如何设计更贴近实际应用的自动驾驶评测基准提供了参考。
  • 相关研究
    近期相关研究包括:1) 'End-to-End Driving Models for Unstructured Scenarios',探讨了端到端驾驶模型在非结构化环境中的表现;2) 'Multimodal Perception and Planning in Autonomous Driving',研究多模态信息融合在自动驾驶中的应用;3) 'Large-Scale Datasets for Autonomous Driving: A Survey',综述了大规模自动驾驶数据集的设计与应用;4) 'Vision-Language-Action Models for Robust Autonomous Navigation',探索了VLA模型在导航任务中的潜力。这些工作共同推动了自动驾驶技术在复杂场景下的进步。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论