Soft-QMIX: Integrating Maximum Entropy For Monotonic Value Function Factorization

简介

多智能体强化学习（MARL）任务通常使用中心化训练和分散执行（CTDE）框架。QMIX是一种成功的CTDE方法，它学习一个信用分配函数，从全局价值函数中推导出局部价值函数，定义一个确定性的局部策略。然而，QMIX的探索策略较差。最大熵强化学习（RL）通过随机策略促进更好的探索，但QMIX的信用分配过程与最大熵目标和分散执行要求冲突，因此不适用于最大熵RL。本文提出了一种增强QMIX的方法，将最大熵RL框架中的另一种本地Q值学习方法纳入其中。我们的方法通过约束本地Q值估计来维持所有动作的正确排序。由于QMIX值函数的单调性，这些更新确保局部最优动作与全局最优动作一致。我们在理论上证明了我们的方法单调改进和收敛到最优解。在实验中，我们在矩阵游戏、多智能体粒子环境中验证了我们的算法，并展示了在SMAC-v2中的最先进性能。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本篇论文试图在QMIX算法的基础上解决探索不足的问题，提出一种最大熵强化学习框架下的增强算法。
关键思路

本文提出一种在最大熵强化学习框架下的增强QMIX算法，通过在局部Q值估计中引入额外的学习方法，保持所有动作的正确排序，从而实现全局最优动作与局部最优动作的一致性。
其它亮点

本文在Matrix Games和Multi-Agent Particle Environment中验证了算法的有效性，并在SMAC-v2数据集上取得了最先进的性能。值得关注的是，本文的算法实现了全局最优动作与局部最优动作的一致性，并且在局部Q值估计中引入了额外的学习方法。
相关研究

最近在这个领域中，一些相关的研究包括：Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments、Multi-Agent Reinforcement Learning with Discrete State Space和Multi-Agent Reinforcement Learning: A Selective Overview of Theories and Algorithms等。

Soft-QMIX: Integrating Maximum Entropy For Monotonic Value Function Factorization

提问交流

提问交流