【论文标题】Off-Policy Correction For Multi-Agent Reinforcement Learning(多Agent强化学习的离线策略修正)
【作者团队】 Michał Zawalski, Błażej Osiński, Henryk Michalewski, Piotr Miłoś
【论文链接】https://arxiv.org/pdf/2111.11229.pdf
【推荐理由】多智能体强化学习(MARL)为涉及多个交互智能体的问题提供了一个框架。尽管多智能体问题与单智能体问题有着明显的相似性,但从理论上讲,多智能体问题往往更难训练和分析。在这项工作中,论文提出了MA-Trace,这是一种新的基于策略的actor-critic算法,它将V-Trace扩展到MARL设置。算法的主要优点是在多工作者环境中具有很高的可扩展性。为此,MA Trace利用重要性抽样作为非策略校正方法,允许在不影响训练质量的情况下分配计算。此外,算法是有理论基础的——证明了一个保证收敛的不动点定理。在星际争霸多智能体挑战赛(StarCraft Multi-Agent Challenge,多智能体算法的标准基准)上对该算法进行了广泛的评估。MA Trace在其所有任务上都实现了高性能,并且在某些任务上超过了最先进的结果。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢