- 简介最近机器学习领域的突破性成功主要归功于规模:即大规模的基于注意力机制的架构和史无前例的数据集。本文研究了规模训练对国际象棋的影响。与依赖于复杂启发式方法、显式搜索或两者结合的传统国际象棋引擎不同,我们使用监督学习在一组1000万场国际象棋比赛的数据集上训练了一个拥有2.7亿个参数的转换器模型。我们使用强大的Stockfish 16引擎为数据集中的每个棋盘注释了动作价值,导致大约有150亿个数据点。我们的最大模型在Lichess闪电战中获得了2895的Elo评分,并成功解决了一系列具有挑战性的国际象棋谜题,而无需任何特定于领域的调整或显式搜索算法。我们还展示了我们的模型优于AlphaZero的策略和价值网络(无MCTS)和GPT-3.5-turbo-instruct。对模型和数据集大小的系统调查表明,只有在足够大的规模下才能产生强大的国际象棋性能。为了验证我们的结果,我们进行了一系列关于设计选择和超参数的消融实验。
- 图表
- 解决问题本论文旨在通过大规模训练模型,解决国际象棋领域中的问题,即如何实现强大的自动下棋引擎。
- 关键思路本论文使用了270M参数的transformer模型,并在1000万局国际象棋比赛的数据集上进行了监督学习,通过Stockfish 16引擎提供的行动价值注释,获得了约150亿个数据点,最终实现了在Lichess blitz Elo上达到2895的成绩。
- 其它亮点本论文的亮点包括使用大规模数据集和模型,证明了强大的自动下棋引擎可以通过监督学习实现;实验结果表明,该模型在解决一系列具有挑战性的棋谜方面表现出色,且优于AlphaZero的策略和价值网络以及GPT-3.5-turbo-instruct;论文进行了设计选择和超参数的广泛消融实验,以验证结果的有效性。
- 最近在国际象棋领域中的相关研究包括AlphaZero和Leela Chess Zero等。
沙发等你来抢
去评论
评论
沙发等你来抢