多智能体对抗作为决策AI中重要的部分,也是强化学习领域的难题之一。为丰富多智能体对抗环境,OpenDILab(开源决策智能平台)开源了一款趣味多智能体对抗竞技游戏环境——Go-Bigger。同时,Go-Bigger还可作为强化学习环境协助多智能体决策AI研究。

与风靡全球的agar.io球球大作战等游戏类似,在Go-Bigger中,玩家(AI)控制地图中的一个或多个圆形球,通过吃食物球和其他比玩家球小的单位来尽可能获得更多重量,并需避免被更大的球吃掉。每个玩家开始仅有一个球,当球达到足够大时,玩家可使其分裂、吐孢子或融合,和同伴完美配合来输出博弈策略,并通过AI技术来操控智能体由小到大地进化,凭借对团队中多智能体的策略控制来吃掉尽可能多的敌人,从而让己方变得更强大并获得最终胜利。

Go-Bigger游戏环境演示图

此外,为帮助用户在强化学习领域的多智能体策略学习,Go-Bigger也提供了符合gym.Env标准的接口供其使用。Go-Bigger还提供了必要的可视化工具。在与环境进行交互的时候,可以直接保存本局包含全局视角及各个玩家视角的录像。此外,Go-Bigger提供了单人全局视野、双人全局视野、单人局部视野三种人机交互模式,使得用户可以快速了解环境规则。

Go-Bigger环境的强化学习算法baseline主要分为环境瘦身、基础算法选择、定制训练流程三部分。其中,环境瘦身即将原始游戏环境简化成适用于强化学习的标准环境格式;基础算法选择指根据环境的基本信息选择合理的基础RL算法;定制训练流程指根据环境的特殊特征定制训练流程。

从零开始实现上述算法和训练流程非常复杂,而通过决策智能框架DI-engine可大大简化相应内容。
 

DI-engine

https://github.com/opendilab/DI-engine

其内部已经集成了支持多智能体的DQN算法实现和一系列相关诀窍,以及玩家自我对战和对抗机器人的训练组件,只需实现相应的环境封装,神经网络模型和训练主函数即可。

详细代码参考

https://github.com/opendilab/GoBigger-Challenge-2021/tree/main/di_baseline 

内容中包含的图片若涉及版权问题,请及时与我们联系删除