- 简介我们通过基于网格的游戏(如井字棋、四连棋和五子棋)引入了一种新颖且可扩展的大型语言模型(LLMs)基准测试。开源的游戏模拟代码可在GitHub上获取,允许LLMs进行比赛并生成详细的数据文件,包括JSON、CSV、TXT和PNG格式,用于排行榜排名和进一步分析。我们展示了领先的LLMs之间的游戏结果,包括Anthropic的Claude 3.5 Sonnet和Claude 3 Sonnet、Google的Gemini 1.5 Pro和Gemini 1.5 Flash、OpenAI的GPT-4 Turbo和GPT-4o,以及Meta的Llama3-70B。我们还鼓励其他LLMs提交结果。总共,我们在三种类型的游戏中使用三种不同的提示类型(列表、插图和图像),模拟了2,310场比赛(每对7个LLMs和一个随机玩家进行5个会话)。结果显示,在不同的游戏和提示类型中,LLM的表现存在显著差异,分析涵盖了胜率和取消资格率、错失机会分析以及无效移动分析。排行榜和结果矩阵数据的详细信息可在GitHub上作为开放获取数据获得。该研究增强了我们对LLMs在没有专门训练的游戏中的能力的理解,有助于评估它们的规则理解和战略思维。在通往人工通用智能(AGI)的道路上,该研究为未来探索LLMs在复杂决策情境中的效用奠定了基础,阐明了它们的战略思维能力,并为进一步探究LLMs在基于游戏的框架内的限制提供了方向。
- 图表
- 解决问题评估大型语言模型在棋盘游戏中的表现,探究它们的规则理解和战略思考能力,为人工通用智能铺平道路。
- 关键思路通过基于网格的游戏(如井字棋、四子棋和五子棋)进行竞争,生成详细的数据文件,评估大型语言模型的表现,包括胜率、失格率、错失机会分析和无效移动分析等,探究不同游戏和提示类型下大型语言模型的性能变化,为进一步探究大型语言模型在复杂决策场景中的实用性提供方向。
- 其它亮点开源游戏模拟代码,可用于评估和排名大型语言模型;共模拟了 2,310 场比赛,涵盖三种类型的游戏和三种不同的提示类型;评估了七个领先的大型语言模型的表现,包括 OpenAI 的 GPT-4 Turbo 和 GPT-4o、Anthropic 的 Claude 3.5 Sonnet 和 Claude 3 Sonnet、Meta 的 Llama3-70B,以及 Google 的 Gemini 1.5 Pro 和 Gemini 1.5 Flash。
- 近期相关研究包括《GPT-3的AI能否玩得转数独?》、《大型语言模型的决策能力:挑战和机遇》等。
沙发等你来抢
去评论
评论
沙发等你来抢