- 简介随着大型语言模型(LLMs)被整合到关键的现实世界应用中,它们的战略和逻辑推理能力变得越来越重要。本文通过博弈论任务评估LLMs在竞争环境中的推理能力,例如需要纯粹的逻辑和战略推理才能与对手竞争的棋盘和纸牌游戏。我们首先提出了GTBench,这是一个由10个广泛认可的任务组成的语言驱动环境,涵盖了全面的游戏分类法:完整信息与不完整信息、动态与静态、概率与确定性场景。然后,我们研究了两个关键问题:(1)表征LLMs的博弈论推理;(2)LLM对LLM的推理评估比赛。我们观察到,(1)LLMs在各种游戏场景下具有不同的行为;例如,LLMs在完整和确定性游戏中失败,但在概率游戏场景中具有竞争力;(2)开源LLMs,例如CodeLlama-34b-Instruct,在复杂游戏中比商业LLMs,例如GPT-4,竞争力较弱。此外,代码预训练极大地有益于战略推理,而像Chain-of-Thought(CoT)和Tree-of-Thought(ToT)这样的高级推理方法并不总是有帮助。还提供了详细的错误分析,以更好地理解LLMs的行为。
- 图表
- 解决问题评估大型语言模型在博弈论任务中的推理能力,探究其在竞争环境中的表现
- 关键思路提出了一个基于语言的环境GTBench,包含10个广泛认可的任务,涵盖完整与不完整信息、动态与静态、概率与确定性场景,通过LLM之间的博弈来评估其推理能力
- 其它亮点发现LLM在不同的博弈场景中表现不同,如在完整和确定性的游戏中表现不佳,但在概率性的游戏中具有竞争力;开源LLM相比商业LLM在复杂游戏中表现较差,代码预训练对推理能力有益,但高级推理方法如CoT和ToT并不总是有帮助;提供详细的错误分析
- 最近的相关研究包括“GPT-4: Generative Pre-training Transformer 4”
沙发等你来抢
去评论
评论
沙发等你来抢