MimicBot：结合模仿和强化学习在机器人碗中获胜

【作者团队】Nicola Pezzotti

【论文链接】https://arxiv.org/abs/2108.09478

【推荐理由】本文描述了一个混合智能体，该智能体经过训练，可以在参加 Bot Bowl III 比赛的 Fantasy Football AI 中进行比赛。智能体 MimicBot 是使用专门设计的深度策略网络实现的，并使用模仿和强化学习的组合进行训练。之前在这种情况下使用强化学习方法的尝试因多种原因而失败，例如，由于环境的内在随机性以及可用动作数量庞大且不均匀，课程学习方法未能始终如一地击败随机支付的代理. 目前，没有任何机器学习方法可以击败利用游戏领域知识的脚本化机器人。由于模仿学习和混合决策过程，本文的解决方案始终胜过此类脚本代理。此外，本文阐明了如何在强化学习环境中更有效地训练，同时大幅提高样本效率。MimicBot 是 Bot Bowl III 比赛的获胜者，目前是最先进的解决方案。