- 简介我们通过基于网格的游戏,如井字棋、四子棋和五子棋,引入了一种新颖且可扩展的大型语言模型(LLM)基准测试。开源的游戏模拟代码可在GitHub上获得,允许LLMs进行比赛,并生成详细的数据文件,包括JSON、CSV、TXT和PNG格式,用于排行榜排名和进一步分析。我们介绍了领先的LLMs之间的游戏结果,包括Anthropic的Claude 3.5 Sonnet和Claude 3 Sonnet、谷歌的Gemini 1.5 Pro和Gemini 1.5 Flash、OpenAI的GPT-4 Turbo和GPT-4o,以及Meta的Llama3-70B。我们还鼓励其他LLMs提交结果。总共,我们在三种类型的游戏中使用三种不同的提示类型(列表、插图和图像)模拟了2,310场比赛(每对7个LLMs和一个随机玩家进行5次对局)。结果显示,在不同的游戏和提示类型中,LLM的表现存在显著差异,分析涵盖了胜率和取消资格率、错失机会分析以及无效移动分析。排行榜和结果矩阵数据的详细信息可在GitHub上作为开放获取数据获得。这项研究增强了我们对LLMs在未经专门训练的游戏中的能力的理解,有助于评估它们的规则理解和战略思维。在通往人工通用智能(AGI)的道路上,这项研究为未来探索LLMs在复杂决策场景中的实用性奠定了基础,阐明了它们的战略思维能力,并为进一步探究LLMs在基于游戏的框架内的限制提供了方向。
- 图表
- 解决问题评估大型语言模型在格子游戏中的表现,探索它们在未经训练的游戏中的规则理解和战略思考能力,为进一步研究LLM在复杂决策场景中的实用性奠定基础。
- 关键思路通过在GitHub上开源游戏模拟代码,让LLMs参与井字棋、四子棋和五子棋等格子游戏的比赛,生成详细的数据文件,评估LLMs在不同游戏和提示类型下的表现,为未来探索LLMs在复杂决策场景中的应用提供方向。
- 其它亮点论文开源游戏模拟代码,提供详细的数据文件以及排行榜,评估了7种LLMs在不同游戏和提示类型下的表现,发现LLMs的表现存在显著差异,为未来研究LLMs在复杂决策场景中的实用性提供了方向。
- 最近的相关研究包括:《GPT-3可以成功完成语言任务,但它们并不真正理解语言》、《使用深度强化学习的五子棋AI》等。
沙发等你来抢
去评论
评论
沙发等你来抢