【标题】The StarCraft Multi-Agent Challenges+ : Learning of Multi-Stage Tasks and Environmental Factors without Precise Reward Functions

【作者团队】Mingyu Kim, Jihwan Oh, Yongsik Lee

【发表日期】2022.7.5

【论文链接】https://arxiv.org/pdf/2207.02007.pdf

【推荐理由】在本文中,作者提出了一个新的基准,称为星际争霸多智能体挑战+,其中智能体学习执行多阶段任务并使用环境因素而无需精确的奖励函数。 先前的挑战(SMAC)被认为是多智能体强化学习的标准基准,主要涉及确保所有智能体仅通过具有明显奖励功能的精细操作来协同消除接近的对手。 另一方面,这一挑战对 MARL 算法的探索能力感兴趣,以有效地学习隐式多阶段任务和环境因素以及微控制。 这项研究涵盖了进攻和防御场景。 在进攻场景中,智能体必须学会首先找到对手然后消灭他们。 防御场景需要代理使用地形特征。 例如,特工需要将自己置于保护结构后面,以使敌人更难攻击。 作者研究了 SMAC+ 下的 MARL 算法,并观察到最近的方法在与之前的挑战类似的环境中运行良好,但在攻击性场景中表现不佳。 此外,作者观察到增强的探索方法对性能有积极影响,但不能完全解决所有场景。

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除