【标题】Correcting biased value estimation in mixing value-based multi-agent reinforcement learning by multiple choice learning

【作者团队】Bing Liu, Yuxuan Xie, Lei Feng, Ping Fu

【发表日期】2022.8.27

【论文链接】https://www.sciencedirect.com/science/article/pii/S0952197622003621#!

【推荐理由】与仅减少预测方差的集成方法不同,多项选择学习 (MCL) 方法利用所有候选模型之间的合作。本文通过利用集成模型和 多智能体强化学习(MARL) 之间的协作来纠正有偏的 Q 值,以获得更稳定和更精确的 Q 值估计量。在本文中,开发了一种称为Multiple Choice QMIX的新MARL方法来解决有偏差的Q值问题,这也扩展了MCL方法的应用场景。具体来说,本文提出了一个投票网络来学习每个估计器的置信度,从而可以通过组合它们的结果来提供最佳预测。并提出了投票后的损失,以鼓励投票网络克服对 Q 值的高估。本文还对星际争霸 II 微观管理基准的四项具有挑战性的任务进行了实验。实验结果表明,本文的方法在多智能体任务中获得了更快的收敛速度和更稳定的性能。