中科院自动化所正式开源轻量易读易扩展的分布式博弈学习训练框架MSAgent,并基于此发布谷歌足球联盟训练基准AI,旨在支持大规模博弈学习训练,推动决策智能应用发展,发展博弈决策领域生态。

该框架简化了分布式强化学习训练的开发难度,用户只需要基于框架提供的接口编写服务脚本与环境脚本,分别指定脚本路径以及启动数量等相关参数,就可以一键启动训练。MSAgent大大提高了易用性,方便部署至大规模集群,支持大规模博弈学习训练。

MSAgent框架的高效性与易用性可以总结为以下几点:

1.支持联盟训练模式: 基于pfsp的对手选择机制以及采用内存型数据库作为模型池,以实现更高速响应请求与更低延迟的读写。

2.模块化的设计理念与微服务范式: 将强化学习的actor,learner,environment完全拆分,各个组件都可以被自定制并封装成相应服务,以微服务架构实现服务注册,服务扩展与服务发现。

3.高效的梯度更新方式: 相比于PS计算模型容易出现局部热点导致加速恶化的情况,采用了RING-ALLREDUCE模型,以充分利用集群中节点间带宽。

4.高吞吐和高并发特性: 同时支持同步任务和异步任务,采用消息队列与任务队列的理念,结合消息路由机制高效完成任务调度与执行。

项目地址:

https://github.com/CodeBot416/decision-ai

内容中包含的图片若涉及版权问题,请及时与我们联系删除