- 简介本文探讨了最先进的大型语言模型(LLMs),如GPT-4、Claude 3 Opus和Gemini 1.0 Ultra在解决本科水平控制问题方面的能力。由于控制问题结合了数学理论和工程设计,因此控制问题为LLM推理提供了一个有趣的案例研究。我们引入了ControlBench,这是一个针对经典控制设计的基准数据集,旨在反映其广度、深度和复杂性。我们使用这个数据集来研究和评估这些LLMs在控制工程背景下的问题解决能力。我们提供了由人类专家组成的评估,以了解LLMs在控制工程中的准确性、推理能力和解释能力。我们的分析揭示了每个LLM在经典控制背景下的优势和局限性,结果表明Claude 3 Opus已成为解决本科控制问题的最先进的LLM。我们的研究是实现在控制工程中使用人工通用智能的更广泛目标的初步步骤。
-
- 图表
- 解决问题评估大型语言模型在控制工程中的应用能力
- 关键思路使用大型语言模型解决本科水平的控制问题,提出ControlBench数据集,评估不同模型的性能和局限性,发现Claude 3 Opus是最优模型
- 其它亮点使用了多个大型语言模型,提出了新的数据集ControlBench,评估了模型在控制工程中的性能,发现Claude 3 Opus是最优模型
- 最近的相关研究主要集中在大型语言模型的应用和控制工程的问题解决上,如《Using GPT-3 to Solve Math Word Problems》和《Deep Reinforcement Learning for Control Systems: A Survey》
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流