Automated Evaluation of Large Vision-Language Models on Self-driving Corner Cases

2024年04月16日
  • 简介
    由于其惊人的视觉推理能力,大型视觉语言模型(LVLMs)在自动驾驶领域受到了广泛关注,这极大地推动了可解释的端到端自动驾驶的发展。然而,目前对LVLMs的评估主要集中在常见场景的多方面能力上,缺乏在自动驾驶环境中可量化和自动化的评估,更不用说即使是最先进的自动驾驶感知系统也难以处理的严峻路况角落。在本文中,我们提出了CODA-LM,这是一个针对自动驾驶的新型视觉语言基准,为解释性自动驾驶提供了LVLMs的第一个自动化和量化评估,包括一般感知、区域感知和驾驶建议。CODA-LM利用文本描述道路图像,利用强大的仅文本的大型语言模型(LLMs)而不需要图像输入来评估LVLMs在自动驾驶场景中的能力,这揭示了与LVLM评委相比更强的与人类偏好的一致性。实验表明,即使是像GPT-4V这样的闭源商业LVLMs也不能很好地处理路况角落,这表明我们离强大的LVLM驱动的智能驾驶代理仍有很长的路要走,我们希望我们的CODA-LM能成为促进未来发展的催化剂。
  • 作者讲解
  • 图表
  • 解决问题
    CODA-LM: 一项用于自动驾驶的视觉语言基准测试,旨在自动和量化评估大型视觉语言模型在自动驾驶场景下的表现,尤其是在处理复杂路况时的表现。
  • 关键思路
    CODA-LM使用文本描述路图像,利用仅包含文本的大型语言模型(LLMs)来评估LVLM在自动驾驶场景下的能力,包括一般感知、区域感知和驾驶建议。
  • 其它亮点
    CODA-LM是第一个用于自动驾驶的视觉语言基准测试,可以自动和量化评估LVLMs在自动驾驶场景下的表现。实验表明,即使是商业闭源的LVLMs如GPT-4V在处理复杂路况时也表现不佳。
  • 相关研究
    目前还没有相关研究。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~