Testing Large Language Models on Driving Theory Knowledge and Skills for Connected Autonomous Vehicles

Zuoyin Tang ,
Jianhua He ,
Dashuai Pei ,
Kezhong Liu ,
Tao Gao
2024年07月24日
  • 简介
    自动驾驶汽车(AVs)面临的主要挑战之一是处理长尾角落案例。虽然大型语言模型(LLMs)具有处理角落案例的巨大潜力,具有出色的泛化和解释能力,并且在应用于自动驾驶方面越来越受到研究关注,但仍然存在技术障碍,例如LLMs的严格模型性能和巨大的计算资源需求。在本文中,我们研究了一种新的方法,即应用远程或边缘LLMs来支持自动驾驶。这种LLM辅助驾驶系统的关键问题是评估LLMs对驾驶理论和技能的理解,确保它们有资格承担CAV的安全关键驾驶辅助任务。我们为几个专有LLM模型(OpenAI GPT模型、Baidu Ernie和Ali QWen)和开源LLM模型(清华MiniCPM-2B和MiniCPM-Llama3-V2.5)设计并运行了驾驶理论测试,其中包括500多个多选理论测试问题。实验从模型准确性、成本和处理延迟等方面进行了测量。实验结果表明,虽然模型GPT-4通过了测试并具有改进的领域知识,而Ernie的准确度为85%(略低于86%的及格门槛),但其他LLM模型,包括GPT-3.5,未通过测试。对于带有图像的测试问题,多模态模型GPT4-o具有96%的优秀准确性结果,而MiniCPM-Llama3-V2.5的准确度为76%。虽然GPT-4在CAV驾驶辅助应用方面具有更强的潜力,但使用GPT-4模型的成本要高得多,几乎是使用GPT3.5的50倍。这些结果可以帮助决定是否使用现有的LLMs进行CAV应用,并在模型性能和成本之间平衡。
  • 图表
  • 解决问题
    研究如何利用远程或边缘大型语言模型(LLMs)来支持自动驾驶,并评估它们对驾驶理论和技能的理解能力和准确性,以确保它们有资格承担关键的驾驶辅助任务。
  • 关键思路
    通过设计和运行驾驶理论测试来评估多个专有和开源LLM模型的准确性、成本和处理延迟,以决定是否适合用于CAV应用,并平衡模型性能和成本。
  • 其它亮点
    使用超过500个多选驾驶理论测试问题对多个LLM模型进行测试,发现GPT-4和GPT4-o模型在准确性和成本方面都表现出色,而GPT-3.5模型则失败。MiniCPM-Llama3-V2.5模型在图像问题上的准确性为76%。结果可以帮助决定是否使用现有的LLMs进行CAV应用,并平衡模型性能和成本。
  • 相关研究
    最近的相关研究包括应用LLMs解决自动驾驶中的长尾情况,以及通过改进LLMs的性能和计算资源需求来解决技术障碍。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论