基于竞争性自学(CSP)的多智能体强化学习(MARL)最近表现出了出惊人的突破。包括Dota2、《王者荣耀》《雷神之锤III》《星际争霸II》等。尽管取得了成功,但MARL训练特别需要数据,在训练过程中通常需要从环境中看到数十亿个帧,这给研究人员、工程师带来了不小的困难。为了解决这个问题,腾讯团队开发了TLeague的框架,其旨在进行大规模训练并实现几种主流的CSP-MARL算法。训练可在单台机器上或混合机器(CPU和GPU)环境集群中部署,在进行分布式训练时,TLeague可以实现高吞吐量和合理的放大。由于采用了模块化设计,因此也很容易扩展,其可以解决其他多智能体问题或实现和验证MARL算法。
- 论文链接:https://arxiv.org/abs/2011.12895v1
- 代码链接: https://github.com/tencent-ailab/TLeague
感兴趣的可以戳链接。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢