在论文中,研究者创建了适用于 4 玩家日本麻将的 AI 系统 Suphx(Super Phoenix 的简称,意为超级凤凰),它采用深度卷积神经网络作为模型。首先,根据人类职业玩家的日志,他们通过监督学习对网络进行训练;然后以网络为策略,通过 self-play 强化学习(RL)实现网络增强。具体而言,研究者使用流行的策略梯度算法来进行 self-play 强化学习,并提出以全局奖励预测(global reward prediction)、Oracle guiding 和 pMCPA 三种技术来解决已知的一些挑战。

内容中包含的图片若涉及版权问题,请及时与我们联系删除