本文是对Nature上一篇关于使用多智能体强化学习,而在《星际争霸II》中达到大师级水平的论文的翻译。

本文使用基于多智能体强化学习算法,使用人类玩家和智能体对战的游戏数据建立深层神经网络。在训练过程中,使用官方在线配对系统Battle.net上的无条件策略,对AlphaStar智能体塑造的人族、神族和虫族进行评估,对各智能体进行三种不同的评估:仅在监督训练后(监督评估)、联赛训练27天后(中期评估)和联赛训练44天后(最终评估)。在最终评估中,对人族、神族和虫族的评分分别为6048分、6275分和5835分,超过了99.8%的人类玩家,并且在三个种族中都处于大师级水平。)

本文使用基于多智能体强化学习算法,使用人类玩家和智能体对战的游戏数据建立深层神经网络。在训练过程中,使用官方在线配对系统Battle.net上的无条件策略,对AlphaStar智能体塑造的人族、神族和虫族进行评估,对各智能体进行三种不同的评估:仅在监督训练后(监督评估)、联赛训练27天后(中期评估)和联赛训练44天后(最终评估)。在最终评估中,对人族、神族和虫族的评分分别为6048分、6275分和5835分,超过了99.8%的人类玩家,并且在三个种族中都处于大师级水平。

感兴趣的可以戳链接。

内容中包含的图片若涉及版权问题,请及时与我们联系删除