How Far Are We on the Decision-Making of LLMs? Evaluating LLMs' Gaming Ability in Multi-Agent Environments

2024年03月18日
  • 简介
    本研究通过博弈论这一成熟领域,探究了大型语言模型(LLMs)的决策能力。我们特别关注支持多个代理同时参与的博弈。随后,我们引入了GAMA-Bench框架,包括八个经典的多代理博弈。我们设计了一个评分方案,以定量评估模型在这些博弈中的表现。通过GAMA-Bench,我们研究了LLMs的鲁棒性、泛化能力和增强策略。结果显示,尽管GPT-3.5表现出令人满意的鲁棒性,但其泛化能力相对有限。然而,通过Chain-of-Thought等方法,其性能可以得到改善。此外,我们对各种LLMs进行评估,发现GPT-4在GAMA-Bench上表现优异,获得了72.5的分数。此外,GPT-3.5的三次迭代(0613、1106、0125)的分数越来越高,证明了该模型随着每次更新在智能方面的显着进步。代码和实验结果可通过https://github.com/CUHK-ARISE/GAMABench公开获取。
  • 图表
  • 解决问题
    本文旨在通过博弈论的角度研究大语言模型(LLMs)的决策能力,特别关注支持多个代理同时参与的博弈,并提出了评估模型性能的框架GAMA-Bench。
  • 关键思路
    本文通过设计评分方案,对LLMs在八个经典多智能体博弈中的表现进行量化评估,研究LLMs的鲁棒性、泛化能力和增强策略,发现GPT-3.5的鲁棒性令人满意,但其泛化能力相对有限,而Chain-of-Thought等方法可以提高其性能。此外,对各种LLMs进行评估,发现GPT-4在GAMA-Bench上表现最好。
  • 其它亮点
    本文提出了评估LLMs性能的框架GAMA-Bench,并在其中使用了八个经典多智能体博弈。实验结果表明,GPT-3.5的鲁棒性较好,但泛化能力有限,可以通过Chain-of-Thought等方法提高其性能。此外,GPT-4在GAMA-Bench上表现最好,得分为72.5。实验代码和结果已在GitHub上公开。
  • 相关研究
    最近的相关研究包括使用博弈论来评估自然语言生成模型和对话系统的性能,如《Evaluating Natural Language Generation Models via Cooperative Games》和《Dialogue Generation: From Imitation Learning to Inverse Reinforcement Learning》。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问