近日,在IJCAI 2020 麻将人工智能竞赛中,来自腾讯 AI 的 SuperJong 团队采用强化学习模型从零开始自我对弈训练,以 1338 分取得冠军。

与围棋等游戏不同的是,麻将更加规则复杂、胜负判定繁琐、信息非完全公开的,且更重要的是在公众认知中麻将更多地有“运气”和“凭直觉”的成分。换句话说,如果一个人运气比较差,拿到一手烂牌,可能再强的实力也只能是输得不那么难看。所以,麻将不像围棋一样,不能单靠一轮对弈,而是要通过多轮(甚至上千轮)对弈才能看出一个雀士的实力。

图注:前16名队伍信息。表格的AI算法列中,RL指强化学习,SL指监督学习,主要指使用对局数据模拟其他玩家/AI决策

这次冠军队是个人参赛,来自腾讯 AI,所采用的方式是强化学习算法框架。如上所示,比赛前4 名也被强化学习包揽,北京大学有 6 支以个人参赛的队伍也打进了16 强。未使用强化学习的队伍主要采用搜索、剪枝、专家经验等方法,设计估值函数时考虑了向听数、游戏巡目等因素。

内容中包含的图片若涉及版权问题,请及时与我们联系删除