五分钟教你在Go-Bigger中设计自己的游戏AI智能体

多智能体对抗作为决策AI中重要的部分，也是强化学习领域的难题之一。为丰富多智能体对抗环境，OpenDILab（开源决策智能平台）开源了一款趣味多智能体对抗竞技游戏环境——Go-Bigger。同时，Go-Bigger还可作为强化学习环境协助多智能体决策AI研究。

与风靡全球的agar.io、球球大作战等游戏类似，在Go-Bigger中，玩家（AI）控制地图中的一个或多个圆形球，通过吃食物球和其他比玩家球小的单位来尽可能获得更多重量，并需避免被更大的球吃掉。每个玩家开始仅有一个球，当球达到足够大时，玩家可使其分裂、吐孢子或融合，和同伴完美配合来输出博弈策略，并通过AI技术来操控智能体由小到大地进化，凭借对团队中多智能体的策略控制来吃掉尽可能多的敌人，从而让己方变得更强大并获得最终胜利。

Go-Bigger游戏环境演示图

此外，为帮助用户在强化学习领域的多智能体策略学习，Go-Bigger也提供了符合gym.Env标准的接口供其使用。Go-Bigger还提供了必要的可视化工具。在与环境进行交互的时候，可以直接保存本局包含全局视角及各个玩家视角的录像。此外，Go-Bigger提供了单人全局视野、双人全局视野、单人局部视野三种人机交互模式，使得用户可以快速了解环境规则。

Go-Bigger环境的强化学习算法baseline主要分为环境瘦身、基础算法选择、定制训练流程三部分。其中，环境瘦身即将原始游戏环境简化成适用于强化学习的标准环境格式；基础算法选择指根据环境的基本信息选择合理的基础RL算法；定制训练流程指根据环境的特殊特征定制训练流程。

从零开始实现上述算法和训练流程非常复杂，而通过决策智能框架DI-engine可大大简化相应内容。

DI-engine：

https://github.com/opendilab/DI-engine

其内部已经集成了支持多智能体的DQN算法实现和一系列相关诀窍，以及玩家自我对战和对抗机器人的训练组件，只需实现相应的环境封装，神经网络模型和训练主函数即可。

详细代码参考：

https://github.com/opendilab/GoBigger-Challenge-2021/tree/main/di_baseline

内容中包含的图片若涉及版权问题，请及时与我们联系删除

五分钟教你在Go-Bigger中设计自己的游戏AI智能体

评论列表

评论