Can Large Language Models Play Games? A Case Study of A Self-Play Approach

简介

大型语言模型（LLMs）利用互联网上的广泛数据，存储了广泛的先前知识。虽然LLMs已被证明有益于决策辅助，但它们的可靠性受到推理和幻觉现象等方面的限制。另一方面，蒙特卡罗树搜索（MCTS）是一种启发式搜索算法，通过递归展开和自我博弈提供可靠的决策解决方案。然而，在复杂的决策情景中，MCTS的有效性在很大程度上依赖于启发式修剪和外部值函数。本文介绍了一种创新方法，将LLMs与MCTS自我博弈相结合，以高效地解决确定性回合制零和游戏（DTZG），例如国际象棋和围棋，无需额外的训练。具体而言，我们将LLMs用作动作修剪器和值函数的代理，无需额外的训练。我们在理论上证明了我们提出的方法中估计值的次优性与$\tilde{\mathcal O}\Bigl(\frac{|\tilde {\mathcal A}|}{\sqrt{N}} + \epsilon_\mathrm{pruner} + \epsilon_\mathrm{critic}\Bigr)$成比例，其中$N$是模拟次数，$|\tilde {\mathcal A}|$是LLM修剪动作空间的基数，$\epsilon_\mathrm{pruner}$和$\epsilon_\mathrm{critic}$分别量化采用LLMs作为动作空间修剪器和值函数代理所产生的误差。我们在国际象棋和围棋中的实验表明了我们的方法可以解决超出MCTS范围的挑战，并提高LLMs的性能。
图表
解决问题

本文旨在通过将Monte-Carlo Tree Search（MCTS）与Large Language Models（LLMs）相结合，解决决策问题中的不足，特别是在确定性回合制零和游戏（DTZG）中，如何提高决策效率。
关键思路

本文提出了一种创新的方法，将LLMs作为动作修剪器和价值函数代理，无需额外的训练，通过MCTS自我对弈有效地解决DTZG问题。本文证明了所提出方法中估计值的次优性随着模拟次数N、LLMs修剪的动作空间的基数以及LLMs作为动作空间修剪器和价值函数代理所引起的误差而缩小。
其它亮点

实验结果表明，本文提出的方法可以在棋类游戏中提高决策效率，同时可以解决MCTS无法解决的问题。本文还介绍了实验设计，使用的数据集以及开源代码。
相关研究

在这个领域中，最近的相关研究包括：《Mastering the Game of Go without Human Knowledge》、《AlphaZero: Shedding New Light on the Grand Games of Chess, Shogi and Go》等。

Can Large Language Models Play Games? A Case Study of A Self-Play Approach

评论