Suphx 的技术细节

在论文中，研究者创建了适用于 4 玩家日本麻将的 AI 系统 Suphx（Super Phoenix 的简称，意为超级凤凰），它采用深度卷积神经网络作为模型。首先，根据人类职业玩家的日志，他们通过监督学习对网络进行训练；然后以网络为策略，通过 self-play 强化学习（RL）实现网络增强。具体而言，研究者使用流行的策略梯度算法来进行 self-play 强化学习，并提出以全局奖励预测（global reward prediction）、Oracle guiding 和 pMCPA 三种技术来解决已知的一些挑战。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

评论列表

评论