Shapley Value Based Multi-Agent Reinforcement Learning: Theory, Method and Its Application to Energy Network

2024年02月23日
  • 简介
    多智能体强化学习是人工智能和机器学习领域的一个快速发展领域。其中一个重要的问题是如何在多智能体系统中进行信用分配。已经设计了许多通过多智能体强化学习算法进行信用分配的方案。尽管这些信用分配方案已被证明对改善多智能体强化学习的性能有用,但它们大多是启发式设计的,没有严格的理论基础,因此无法理解代理如何协作。在本论文中,我们旨在通过合作博弈论研究多智能体强化学习中信用分配的基础。我们首先将合作博弈论中的凸博弈模型和Shapley值支付分配方案扩展到马尔可夫决策过程中,分别称为马尔可夫凸博弈和马尔可夫Shapley值。我们将全局奖励博弈表示为大联盟下的马尔可夫凸博弈。因此,马尔可夫Shapley值可以合理地用作全局奖励博弈中的信用分配方案。马尔可夫Shapley值具有以下优点:(i)效率;(ii)虚拟代理的可识别性;(iii)反映贡献和(iv)对称性,形成公平的信用分配。基于马尔可夫Shapley值,我们提出了三种多智能体强化学习算法,分别称为SHAQ,SQDDPG和SMFPPO。此外,我们将马尔可夫凸博弈扩展到部分可观测性,以处理部分可观测性问题,称为部分可观测马尔可夫凸博弈。在应用中,我们评估了SQDDPG和SMFPPO在能源网络中的实际问题上的表现。
  • 图表
  • 解决问题
    本文试图探讨多智能体强化学习中的信用分配问题,并通过合作博弈论将凸博弈模型和Shapley值扩展到马尔可夫决策过程中,提出了基于马尔可夫Shapley值的信用分配方案。
  • 关键思路
    本文提出的马尔可夫Shapley值信用分配方案具有效率、可识别虚拟智能体、反映贡献和对称性等特点,可以在全局奖励游戏中合理地使用。
  • 其它亮点
    本文提出了三种基于马尔可夫Shapley值的多智能体强化学习算法,并将马尔可夫凸博弈扩展到部分可观察性以处理部分可观察性问题。实验评估了SQDDPG和SMFPPO在能源网络中的应用。
  • 相关研究
    近期的相关研究包括:1.《Multi-Agent Reinforcement Learning: A Selective Overview of Theories and Algorithms》;2.《Multi-Agent Reinforcement Learning: A Survey》;3.《Multi-Agent Reinforcement Learning: A Comprehensive Overview》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论