对于多智能体强化学习的元策略梯度信用分配算法

【标题】Credit Assignment with Meta-Policy Gradient for Multi-Agent Reinforcement Learning

【作者团队】Jianzhun Shao, Hongchang Zhang, Yuhang Jiang, Shuncheng He, Xiangyang Ji

【论文链接】https://arxiv.org/abs/2102.12957

【发表日期】2021.02.24

【推荐理由】非中心式执行（CTDE）&中心式训练是MARL环境中的一种，而回报分解是其中的一个关键问题。这种环境中的全局信息包含了所有智能体的状态与相关环境，以将Q值分解为单独的信用值。本文提出了一种可高度利用上述全局信息的基于元学习的、与元策略梯度相结合的混合网络，以获得具有更加精细的回报分解能力的全局架构。训练过程中，智能体会在全局架构下通过几个Q值更新来进行“练习行进”，“练习行进”之前和之后的回报差异对于全局架构的最终训练具有指导作用，可使得智能体的探索行为更好。并且，元学习方法使得本文算法可完全基于自我改进，不需要任何全局先验知识。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

对于多智能体强化学习的元策略梯度信用分配算法

评论列表

评论