Testing Large Language Models on Driving Theory Knowledge and Skills for Connected Autonomous Vehicles

简介

自动驾驶汽车（AVs）面临的主要挑战之一是处理长尾角落案例。虽然大型语言模型（LLMs）具有处理角落案例的巨大潜力，具有出色的泛化和解释能力，并且在应用于自动驾驶方面越来越受到研究关注，但仍然存在技术障碍，例如LLMs的严格模型性能和巨大的计算资源需求。在本文中，我们研究了一种新的方法，即应用远程或边缘LLMs来支持自动驾驶。这种LLM辅助驾驶系统的关键问题是评估LLMs对驾驶理论和技能的理解，确保它们有资格承担CAV的安全关键驾驶辅助任务。我们为几个专有LLM模型（OpenAI GPT模型、Baidu Ernie和Ali QWen）和开源LLM模型（清华MiniCPM-2B和MiniCPM-Llama3-V2.5）设计并运行了驾驶理论测试，其中包括500多个多选理论测试问题。实验从模型准确性、成本和处理延迟等方面进行了测量。实验结果表明，虽然模型GPT-4通过了测试并具有改进的领域知识，而Ernie的准确度为85%（略低于86%的及格门槛），但其他LLM模型，包括GPT-3.5，未通过测试。对于带有图像的测试问题，多模态模型GPT4-o具有96%的优秀准确性结果，而MiniCPM-Llama3-V2.5的准确度为76%。虽然GPT-4在CAV驾驶辅助应用方面具有更强的潜力，但使用GPT-4模型的成本要高得多，几乎是使用GPT3.5的50倍。这些结果可以帮助决定是否使用现有的LLMs进行CAV应用，并在模型性能和成本之间平衡。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

研究如何利用远程或边缘大型语言模型（LLMs）来支持自动驾驶，并评估它们对驾驶理论和技能的理解能力和准确性，以确保它们有资格承担关键的驾驶辅助任务。
关键思路

通过设计和运行驾驶理论测试来评估多个专有和开源LLM模型的准确性、成本和处理延迟，以决定是否适合用于CAV应用，并平衡模型性能和成本。
其它亮点

使用超过500个多选驾驶理论测试问题对多个LLM模型进行测试，发现GPT-4和GPT4-o模型在准确性和成本方面都表现出色，而GPT-3.5模型则失败。MiniCPM-Llama3-V2.5模型在图像问题上的准确性为76%。结果可以帮助决定是否使用现有的LLMs进行CAV应用，并平衡模型性能和成本。
相关研究

最近的相关研究包括应用LLMs解决自动驾驶中的长尾情况，以及通过改进LLMs的性能和计算资源需求来解决技术障碍。

Testing Large Language Models on Driving Theory Knowledge and Skills for Connected Autonomous Vehicles

提问交流

提问交流