- 简介大型语言模型(LLMs)利用互联网上的广泛数据,存储了广泛的先前知识。虽然LLMs已被证明有益于决策辅助,但它们的可靠性受到推理和幻觉现象等方面的限制。另一方面,蒙特卡罗树搜索(MCTS)是一种启发式搜索算法,通过递归展开和自我博弈提供可靠的决策解决方案。然而,在复杂的决策情景中,MCTS的有效性在很大程度上依赖于启发式修剪和外部值函数。本文介绍了一种创新方法,将LLMs与MCTS自我博弈相结合,以高效地解决确定性回合制零和游戏(DTZG),例如国际象棋和围棋,无需额外的训练。具体而言,我们将LLMs用作动作修剪器和值函数的代理,无需额外的训练。我们在理论上证明了我们提出的方法中估计值的次优性与$\tilde{\mathcal O}\Bigl(\frac{|\tilde {\mathcal A}|}{\sqrt{N}} + \epsilon_\mathrm{pruner} + \epsilon_\mathrm{critic}\Bigr)$成比例,其中$N$是模拟次数,$|\tilde {\mathcal A}|$是LLM修剪动作空间的基数,$\epsilon_\mathrm{pruner}$和$\epsilon_\mathrm{critic}$分别量化采用LLMs作为动作空间修剪器和值函数代理所产生的误差。我们在国际象棋和围棋中的实验表明了我们的方法可以解决超出MCTS范围的挑战,并提高LLMs的性能。
- 图表
- 解决问题本文旨在通过将Monte-Carlo Tree Search(MCTS)与Large Language Models(LLMs)相结合,解决决策问题中的不足,特别是在确定性回合制零和游戏(DTZG)中,如何提高决策效率。
- 关键思路本文提出了一种创新的方法,将LLMs作为动作修剪器和价值函数代理,无需额外的训练,通过MCTS自我对弈有效地解决DTZG问题。本文证明了所提出方法中估计值的次优性随着模拟次数N、LLMs修剪的动作空间的基数以及LLMs作为动作空间修剪器和价值函数代理所引起的误差而缩小。
- 其它亮点实验结果表明,本文提出的方法可以在棋类游戏中提高决策效率,同时可以解决MCTS无法解决的问题。本文还介绍了实验设计,使用的数据集以及开源代码。
- 在这个领域中,最近的相关研究包括:《Mastering the Game of Go without Human Knowledge》、《AlphaZero: Shedding New Light on the Grand Games of Chess, Shogi and Go》等。
沙发等你来抢
去评论
评论
沙发等你来抢