CPEG: Leveraging Consistency Policy with Consensus Guidance for Multi-agent Exploration

2024年11月06日
  • 简介
    高效的探索在合作多智能体强化学习(MARL)中至关重要,尤其是在稀疏奖励环境中。然而,由于依赖于单模态策略,现有方法容易陷入局部最优,阻碍了更优策略的有效探索。此外,在复杂环境中处理多智能体任务需要在探索过程中进行协作,这对MARL方法构成了重大挑战。为了解决这些问题,我们提出了一种带有共识引导的一致性策略(CPEG),主要包括两个组件:(a) 引入多模态策略以增强探索能力;(b) 在智能体之间共享共识以促进合作。对于组件(a),CPEG将一致性模型作为策略,利用其多模态特性和随机特性来促进探索。关于组件(b),CPEG引入了一个共识学习器,从局部观察中推导出对全局状态的共识。这一共识随后作为一致性策略的指导,促进智能体之间的合作。所提出的方法在多智能体粒子环境(MPE)和多智能体MuJoCo(MAMuJoCo)中进行了评估,实证结果表明,CPEG不仅在稀疏奖励环境中取得了改进,还在密集奖励环境中达到了基线方法的性能水平。
  • 图表
  • 解决问题
    该论文旨在解决在合作多智能体强化学习(MARL)中,特别是在稀疏奖励设置下,现有方法因依赖单模态策略而容易陷入局部最优的问题,以及在复杂环境中执行多智能体任务时探索过程中所需的协作所带来的挑战。
  • 关键思路
    论文提出了一种名为CPEG(Consistency Policy with consEnsus Guidance)的方法,通过引入多模态策略增强探索能力,并通过共享共识促进智能体之间的合作。具体来说,CPEG利用一致性模型作为策略,利用其多模态和随机特性来促进探索;同时,通过共识学习器从局部观察中推断出对全局状态的共识,以此指导一致性策略,促进智能体间的合作。
  • 其它亮点
    CPEG在多智能体粒子环境(MPE)和多智能体MuJoCo(MAMuJoCo)中进行了评估,实证结果显示,CPEG不仅在稀疏奖励设置下取得了改进,而且在密集奖励环境中也达到了与基线方法相当的性能。此外,论文还提供了实验设计的详细说明,包括使用的数据集和实验设置,但未提及是否有开源代码。未来的研究可以进一步探讨如何在更大规模和更复杂的环境中应用CPEG,以及如何优化共识学习器的效率。
  • 相关研究
    近年来,在多智能体强化学习领域,许多研究关注于提高探索效率和促进智能体间的合作。例如,《QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning》提出了QMIX方法,通过单调价值函数分解来解决信用分配问题;《Multi-Agent Actor-Critic Algorithms》则探讨了多智能体演员-评论家算法的有效性;《Curiosity-driven Exploration by Self-supervised Prediction》介绍了好奇心驱动的探索机制,通过自我监督预测来增强探索。这些研究为CPEG的设计提供了理论基础和技术支持。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论