- 简介多智能体强化学习(MARL)任务通常使用中心化训练和分散执行(CTDE)框架。QMIX是一种成功的CTDE方法,它学习一个信用分配函数,从全局价值函数中推导出局部价值函数,定义一个确定性的局部策略。然而,QMIX的探索策略较差。最大熵强化学习(RL)通过随机策略促进更好的探索,但QMIX的信用分配过程与最大熵目标和分散执行要求冲突,因此不适用于最大熵RL。本文提出了一种增强QMIX的方法,将最大熵RL框架中的另一种本地Q值学习方法纳入其中。我们的方法通过约束本地Q值估计来维持所有动作的正确排序。由于QMIX值函数的单调性,这些更新确保局部最优动作与全局最优动作一致。我们在理论上证明了我们的方法单调改进和收敛到最优解。在实验中,我们在矩阵游戏、多智能体粒子环境中验证了我们的算法,并展示了在SMAC-v2中的最先进性能。
-
- 图表
- 解决问题本篇论文试图在QMIX算法的基础上解决探索不足的问题,提出一种最大熵强化学习框架下的增强算法。
- 关键思路本文提出一种在最大熵强化学习框架下的增强QMIX算法,通过在局部Q值估计中引入额外的学习方法,保持所有动作的正确排序,从而实现全局最优动作与局部最优动作的一致性。
- 其它亮点本文在Matrix Games和Multi-Agent Particle Environment中验证了算法的有效性,并在SMAC-v2数据集上取得了最先进的性能。值得关注的是,本文的算法实现了全局最优动作与局部最优动作的一致性,并且在局部Q值估计中引入了额外的学习方法。
- 最近在这个领域中,一些相关的研究包括:Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments、Multi-Agent Reinforcement Learning with Discrete State Space和Multi-Agent Reinforcement Learning: A Selective Overview of Theories and Algorithms等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流