CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving

2024年08月19日
  • 简介
    自动驾驶,特别是在复杂和意外情况下的导航,需要先进的推理和规划能力。虽然多模式大语言模型(MLLMs)为此提供了一种有前途的途径,但它们的使用主要局限于理解复杂的环境背景或生成高级驾驶指令,很少有研究将其应用于端到端路径规划。主要的研究瓶颈是缺乏涵盖视觉、语言和行动的大规模注释数据集。为了解决这个问题,我们提出了CoVLA(全面视觉语言行动)数据集,这是一个包括超过80小时真实驾驶视频的广泛数据集。该数据集利用一种基于自动化数据处理和字幕生成流程的新颖、可扩展的方法,生成准确的驾驶轨迹,配对详细的自然语言描述驾驶环境和操作。这种方法利用原始车内传感器数据,使其在规模和注释丰富性方面超越了现有的数据集。使用CoVLA,我们研究了能够处理视觉、语言和行动的MLLMs在各种驾驶场景中的驾驶能力。我们的结果说明了我们的模型在生成连贯的语言和行动输出方面的强大能力,强调了视觉-语言-行动(VLA)模型在自动驾驶领域的潜力。该数据集为训练和评估VLA模型提供了一个全面的平台,建立了一个稳健、可解释和数据驱动的自动驾驶系统框架,有助于更安全、更可靠的自动驾驶车辆。该数据集仅供学术用途。
  • 图表
  • 解决问题
    如何使用多模态大语言模型(MLLMs)进行端到端路径规划,以应对自动驾驶中复杂和未预料到的情况?如何解决缺乏大规模注释数据集的问题?
  • 关键思路
    提出了一种基于自动化数据处理和字幕生成流水线的方法,利用原始车载传感器数据生成准确的驾驶轨迹,并配以详细的自然语言描述。利用这种方法生成了覆盖80多小时的真实驾驶视频的CoVLA(综合视觉-语言-行动)数据集,用于训练和评估可以处理视觉、语言和行动的MLLMs。通过实验验证了该方法的有效性和潜力。
  • 其它亮点
    CoVLA数据集利用原始车载传感器数据,规模和注释丰富度超过了现有数据集,为自动驾驶系统提供了一个全面的、可靠的训练和评估平台。实验结果表明,MLLMs在处理视觉、语言和行动方面具有很强的能力,具有很大的应用潜力。该数据集已经开源。
  • 相关研究
    近期相关研究包括:1. End-to-end Learning for Self-Driving Cars;2. Learning a Driving Simulator;3. Learning to Drive from Simulation;4. Conditional Imitation Learning for Structured Prediction;5. Interactive Imitation Learning for Autonomous Driving;6. Learning to Drive in a Day.
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论