面向多智能体博弈对抗的对手建模框架

官网地址

对手建模作为多智能体博弈对抗的关键技术，是一种典型的智能体认知行为建模方法。介绍了多智能体博弈对抗几类典型模型、非平稳问题和元博弈相关理论；梳理总结对手建模方法，归纳了对手建模前沿理论，并对其应用前景及面对的挑战进行分析。基于元博弈理论，构建了一个包括对手策略识别与生成、对手策略空间重构和对手利用共三个模块的通用对手建模框架。期望为多智能体博弈对抗对手建模方面的理论与方法研究提供有价值的参考。引言人工智能技术的发展经历了计算智能、感知智能阶段，云计算、大数据、物联网等技术的发展正助力认知智能飞跃发展。其中认知智能面向的理解、推理、思考和决策等主要任务，主要表现为擅长自主态势理解、理性做出深度慎思决策，是强人工智能(strong AI)的必备能力，此类瞄准人类智能水平的技术应用前景广阔，必将影响深远。机器博弈是人工智能领域的“果蝇” [1]，面向机器博弈的智能方法发展是人工智能由计算智能、感知智能的研究迈向认知智能的必经之路。多智能博弈对抗环境是一类典型的竞合(竞争 -合作)环境，从博弈理论的视角分析，对手建模主要是指对除智能体自身以外其它智能体建模，其中其他智能体可能是合作队友(合作博弈，cooperative game)、敌对敌人(对抗博弈，adversarial game)和自身的历史版本(元博弈, meta game)。本文关注的对手建模问题，属于智能体认知行为建模的子课题。研究面向多智能体博弈对抗的对手建模方法，对于提高智能体基于观察判断、态势感知推理，做好规划决策、行动控制具有重要作用。本文首先介绍多智能体博弈对抗基础理论；其次对对手建模的主要方法进行分类综述，研究分析各类方法的区别联系，从多个角度介绍当前对手建模前沿方法，分析了应用前景及面临的挑战；最后在元博弈理论的指导下，构建了一个拥有“对手策略识别与生成、对手策略空间重构、对手策略利用” 共 3 个模块的通用对手建模框架。

1 多智能体博弈对抗

近年来，多智能体博弈对抗的相关研究取得了很大的突破。如图 1 所示，以 AlphaGo/AlphaZero (围棋 AI)[2]、Pluribus (德州扑克 AI)[3]、AlphaStar (星际争霸 AI)[4]、Suphx (麻将 AI)[5]等为代表的人工智能 AI 在人机对抗比赛中已经战胜了人类顶级职业选手，这类对抗人类的智能博弈对抗学习为认知智能的研究提供了新的研究范式。多智能体博弈对抗的研究就是使用新的人工智能范式设计人工智能 AI 并通过人机对抗、机机对抗和人机协同对抗等方式研究计算机博弈领域的相关问题，其本质就是通过博弈学习方法探索人类认知决策智能习得过程，研究人工智能 AI 升级进化并战胜人类智能的内在生成机理和技术途经，这是类人智能研究走上强人工智能的必由之路。

1.1 多智能体模型

在人工智能领域，马尔可夫决策过程(markov decision process, MDP)常用于单智能体决策过程建模。近些年，一些新的马尔可夫决策模型相继被提出，为获得多样性策略和应对稀疏反馈，正则化马尔可夫决策过程将策略的相关信息或熵作为约束条件，构建有信息或熵正则化项的马尔可夫决策过程[6]。相应的，一些新型带熵正则化项的强化学习方法[7](如时序空间的正则化强化学习，策略空间的最大熵正则化强化学习与 Taillis 熵正则化强化学习)和一些新的正则化马尔可夫博弈模型[8](如最大熵正则化马尔可夫博弈、迁移熵正则化马尔可夫博弈)也相继被提出。面向多智能体决策的模型主要有多智能体 MDPs(multi-agent MDPs, MMDPs)及分布式 MDPs(decentralized MDPs, Dec-MDPs)[9]。其中在 MMDPs 模型中，主要采用集中式的策略，不区分单个智能体的私有或全局信息，统一处理再分配单个智能体去执行。而在 Dec-MDPs 模型中，每个智能体有独立的环境与状态观测，可根据局部信息做出决策。重点针对智能体间信息交互的模型主要有交互式 POMDP(interactive POMDP, I-POMDP)[10] ，其主要采用递归推理 (recursive reasoning)的对手建模方法对其他智能体的行为进行显式建模，推断其它智能体的行为信息，然后采取应对行为。以上介绍的主要是基于决策理论的智能体学习模型及相关方法。

如图 2 所示，这些模型都属于部分可观随机博弈 (partial observation stochastic game, POSG)模型的范畴。

当前，直接基于博弈理论的多智能体博弈模型得到了广泛关注。如图 3 所示，其中有两类典型的多智能体博弈模型：随机博弈(stochastic game)，也称马尔可夫博弈(markov game)模型适用于即时战略游戏、无人集群对抗等问题的建模；而扩展型博弈(extensive form game, EFG)模型常用于基础设施防护，麻将、桥牌等回合制游戏(turn-based game) 的序贯交互，多阶段军事对抗决策等问题的建模。最新的一些研究为了追求两类模型的统一，将扩展型博弈模型的建模成因子可观随机博弈(factored observation stochastic game)模型。

1.2 非平稳问题

多智能体博弈对抗面临信息不完全、行动不确定、对抗空间大规模和多方博弈难求解等挑战，在博弈对抗过程中，每个智能体的策略随着时间在不断变化，因此每个智能体所感知到的转移概率分布和奖励函数也在发生变化，故其行动策略是非平稳的。当前，非平稳问题主要采用在线学习[11]、强化学习和博弈论理论进行建模[12]。智能体处理非平衡问题的方法主要有五大类：无视(ignore)[13]，即假设平稳环境；遗忘(forget)[14]，即采用无模型方法，忘记过去的信息同时更新最新的观测；标定(target) 对手模型[15]，即针对预定义对手进行优化；学习 (learn)对手模型的方法[16]，即采用基于模型的学习方法学习对手行动策略；心智理论(theory of mind, ToM)的方法[17]，即智能体与对手之间存在递归推理。面对拥有有限理性欺骗型策略的对手，对手建模(也称智能体建模)已然成为智能体博弈对抗时必须拥有的能力[18-20]，它同分布式执行中心化训练、元学习、多智能体通信建模为非平稳问题的处理提供了技术支撑[21]。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

面向多智能体博弈对抗的对手建模框架

评论