图片

继AlphaGO系列的巨大成功之后,2019年是一个蓬勃发展的一年,见证了多智能体强化学习(MARL)技术的重大进展。MARL对应于多智能体系统中多个智能体同时学习的学习问题。这是一个具有悠久历史的跨学科领域,包括博弈论、机器学习、随机控制、心理学和优化。尽管MARL在解决现实世界的游戏方面取得了相当大的经验上的成功,但文献中缺乏一个完整的概述来阐述现代MARL方法的博弈理论基础,并总结最近的进展。事实上,现有的大多数综述都是过时的,没有完全涵盖2010年以来的最新发展。在这项工作中,我们提供了一个关于MARL的专著,包括基本原理和研究前沿的最新发展。本综述分为两部分。从§1到§4,我们介绍了MARL的完备的基础知识,包括问题公式、基本解决方案和现有的挑战。具体地说,我们通过两个具有代表性的框架,即随机博弈和广义博弈,以及可以处理的不同博弈变体,来呈现MARL公式。这一部分的目的是使读者,即使是那些相关背景很少的人,掌握MARL研究的关键思想。从§5到§9,我们概述了MARL算法的最新发展。从MARL方法的新分类开始,我们对以前的研究论文进行了调研。在后面的章节中,我们将重点介绍MARL研究中的几个现代主题,包括Q函数分解、多智能体软学习、网络化多智能体MDP、随机潜在博弈、零和连续博弈、在线MDP、回合制随机博弈、策略空间响应oracle、一般和博弈中的近似方法、以及具有无限个体的游戏中的平均场类型学习。在每个主题中,我们都选择了最基础和最先进的算法。我们调研的目的是从博弈理论的角度对当前最先进的MARL技术提供一个完备的评估。我们希望这项工作能够为即将进入这个快速发展的领域的新研究人员和现有的领域专家提供一个跳板,他们希望获得一个全景视图,并根据最近的进展确定新的方向。

slides地址:

https://www.yangyaodong.com/_files/ugd/ddd18b_83551919759c4c9a8dec636e25f8dd65.pdf

综述地址:https://arxiv.org/abs/2011.00583

内容中包含的图片若涉及版权问题,请及时与我们联系删除