- 简介最近多智能体强化学习的进展促使模拟环境中代理之间的复杂互动建模。特别是,捕食者-猎物动态引起了相当大的兴趣,并且各种模拟被定制以适应独特的要求。为了防止进一步耗费时间的开发,我们介绍了Aquarium,这是一个全面的多智能体强化学习环境,用于捕食者-猎物互动研究,以便研究新兴行为。Aquarium是开源的,提供了与PettingZoo框架的无缝集成,可以快速开始使用经过验证的算法实现。它在二维边缘环绕平面上具有基于物理的代理移动。代理-环境交互(观察、动作、奖励)和环境设置(代理速度、猎物繁殖、捕食者饥饿等)是完全可定制的。除了资源高效的可视化外,Aquarium还支持记录视频文件,提供代理行为的视觉理解。为了展示环境的功能,我们进行了初步研究,使用PPO训练多个猎物代理来逃避捕食者。根据文献,我们发现个体学习的表现比参数共享差,后者显著提高了协调和样本效率。
- 图表
- 解决问题论文旨在介绍一个新的多智能体强化学习环境Aquarium,用于研究捕食者-猎物动态的紧密互动。该环境旨在解决以前开发环境所需的时间和工作量过大的问题。
- 关键思路Aquarium提供了一个全面的多智能体强化学习环境,用于研究捕食者-猎物动态的紧密互动,并允许自定义环境设置和智能体行为。Aquarium还支持资源高效的可视化和视频记录。
- 其它亮点Aquarium是一个开源环境,使用PettingZoo框架实现,可以快速开始使用。该环境支持物理学基础的智能体移动,可以自定义智能体和环境设置。论文通过使用PPO算法对多个猎物智能体进行培训以逃避捕食者的实验来演示Aquarium的能力。研究发现参数共享比个体学习具有更好的性能。
- 近期的相关研究包括使用多智能体强化学习研究捕食者-猎物动态的其他环境,如MPE和SMAC。
沙发等你来抢
去评论
评论
沙发等你来抢