Inducing Stackelberg Equilibrium through Spatio-Temporal Sequential Decision-Making in Multi-Agent Reinforcement Learning

解决问题:本文旨在解决在多智能体强化学习中,如何通过时空序列决策来诱导Stackelberg均衡,以实现异步动作协调的问题。这是一个新的问题,因为现有的方法大多基于马尔可夫博弈框架下所有智能体同时采取行动的假设,而忽略了异步动作协调对均衡策略的影响。

关键思路:本文构建了一个基于马尔可夫博弈的时空序列决策结构,并提出了一个基于条件超网络的N级策略模型,该模型可以让每个智能体在上级智能体的决策条件下做出最优反应,从而实现异步动作协调。相比于当前领域的研究,本文的思路在于允许异步动作协调,从而实现Stackelberg均衡策略的学习,同时保持参数共享,降低了学习和存储成本,并提高了可扩展性。

其他亮点:本文的实验设计包括了重复矩阵博弈场景、合作任务和混合任务。实验结果表明,本文的方法在这些复杂的场景下均能有效地收敛到Stackelberg均衡策略,并表现出良好的性能。此外,本文的方法还具有可扩展性和泛化能力,可以适用于更广泛的多智能体场景。

关于作者:本文的主要作者是张斌、李丽娟、徐志伟、李大鹏和范国良。他们分别来自北京理工大学和中国科学院自动化研究所。张斌在多智能体强化学习和机器学习领域有多篇代表作,如“Multi-Agent Reinforcement Learning: A Selective Overview of Theories and Algorithms”和“Deep Reinforcement Learning for Autonomous Driving: A Survey”。李丽娟在机器学习和计算机视觉领域也有多篇代表作,如“Deep Reinforcement Learning for Multi-Agent Systems: A Review of Challenges, Solutions and Applications”。

相关研究:近期其他相关的研究包括“Learning to Coordinate with Coordination Graphs in Multi-Agent Reinforcement Learning”(作者:Igor Mordatch等,机构:OpenAI)、“QTRAN: Learning to Factorize with Transformation for Cooperative Multi-Agent Reinforcement Learning”(作者:Lei Han等,机构:Carnegie Mellon University)和“Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments”(作者:Ryan Lowe等,机构:McGill University)。

论文摘要:在多智能体强化学习中,自利智能体试图建立平衡并根据游戏结构实现协调。然而,现有的多智能体强化学习方法大多受到马尔可夫博弈框架下所有智能体同时行动的限制,很少有研究考虑通过异步行动协调形成平衡策略。鉴于Stackelberg平衡相对于Nash平衡的优势,我们构建了一个从马尔可夫博弈中推导出的时空顺序决策结构,并提出了一个基于所有智能体共享的条件超网络的N级策略模型。这种方法允许异构训练和对称执行,每个智能体都可以在上级智能体的决策条件下做出最优响应。智能体可以学习异构的Stackelberg平衡策略,同时仍然保持参数共享,这导致了学习和存储成本的降低以及随着智能体数量的增加而增强的可扩展性。实验表明,我们的方法在重复矩阵游戏场景中有效地收敛于Stackelberg平衡策略,并在包括合作任务和混合任务在内的极其复杂的设置中表现出色。

内容中包含的图片若涉及版权问题,请及时与我们联系删除