- 简介大型语言模型已经在许多自然语言理解任务上展现出了非凡的少样本性能。尽管已经有几个示例表明大型语言模型可以在复杂的战略场景中使用,但缺乏一个综合性的框架来评估代理人在游戏中各种类型推理的表现。为了解决这个问题,我们介绍了GameBench,这是一个跨领域的基准,用于评估LLM代理的战略推理能力。我们关注9个不同的游戏环境,每个环境至少涵盖了战略游戏中识别的一个关键推理技能轴,并选择那些不太可能在模型预训练语料库中形成重要部分的游戏。我们的评估使用了GPT-3和GPT-4以及两个旨在增强战略推理能力的脚手架框架:Chain-of-Thought(CoT)提示和Reasoning Via Planning(RAP)。我们的结果表明,测试的模型都没有达到人类的表现水平,最差的情况下,GPT-4的表现甚至不如随机动作。CoT和RAP都提高了分数,但还不能与人类水平相比。
-
- 图表
- 解决问题评估大型语言模型在游戏中的策略推理能力
- 关键思路引入跨领域基准GameBench,涵盖9个游戏环境,使用GPT-3和GPT-4以及两种辅助框架进行评估
- 其它亮点结果显示测试模型均未达到人类水平,CoT和RAP可以提高得分但仍不可与人类水平相比。
- 最近的相关研究包括:Emergent Tool Use from Multi-Agent Interaction (2021), Multi-Agent Reinforcement Learning for Sequential Social Dilemmas (2019), Playing FPS Games with Deep Reinforcement Learning (2018)等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流