「智能博弈对抗方法」最新2022综述-博弈论与强化学习综合视角对比分析

智能博弈对抗是人工智能认知决策领域亟待解决的前沿热点问题.以反事实后悔最小化算法为代表的博弈论方法和以虚拟自博弈算法为代表的强化学习方法,依托大规模算力支撑,在求解智能博弈策略中脱颖而出,但对两种范式之间的关联缺乏深入发掘. 文中针对智能博弈对抗问题,定义智能博弈对抗的内涵与外延,梳理智能博弈对抗的发展历程,总结其中的关键挑战.从博弈论和强化学习两种视角出发,介绍智能博弈对抗模型、算法.多角度对比分析博弈理论和强化学习的优势与局限,归纳总结博弈理论与强化学习统一视角下的智能博弈对抗方法和策略求解框架,旨在为两种范式的结合提供方向,推动智能博弈技术前向发展,为迈向通用人工智能蓄力.

https://www.jsjkx.com/CN/10.11896/jsjkx.220200174

导论

对抗是人类社会发展与演进的主旋律,广泛存在于人与自然、人与人、人与机器之间,是人类思维活动特别是人类智能的重要体现.人工智能浪潮中,对抗的形式不断发生变化, 贯穿计算智能、感知智能和认知智能３个阶段[１].以对抗关系为主的博弈研究,为探索认知智能的关键技术原理提供了有效工具.在认知智能层面,信息环境复杂、对抗对手复杂、策略求解复杂等愈发逼近真实世界的复杂场景应用需求, 推动了博弈对抗能力的不断提升.高度保留真实世界特性 (巨复杂、高动态、强对抗)的智能博弈对抗技术逐渐成为了金融、经济、交通等民用领域的技术引擎和军事智能化实现的重要助推力.在民用领域,尤其是在保护各种关键公共基础设施和目标的挑战性任务[３]中,智能博弈对抗技术不可或缺, 例如博物馆、港口、机场等安全机构部署有限的防护资源,在入口处或者外围路网设置安检口进行警力的巡逻防控[４].在军事领域,智能博弈技术积极推动了指挥与控制的智能化发展[５],美国先后启动了“深绿”[６]、指挥官虚拟参谋[７]、“终身学习机器”“指南针”(COMPASS)等项目,旨在缩短“观察Ｇ判断Ｇ决策Ｇ行动”(OODA)的循环时间.

近年来,在人机对抗场景中,AlphaGo [８]、AlphaStar [９]、 Pluribus [１０]、Suphx [１１]、绝悟[１２]等一大批高水平 AI在游戏验证平台中战胜了人类玩家,智能博弈发展取得了显著突破. 智能博弈技术的巨大成功主要依赖于博弈论和强化学习两种范式的结合[１３]:博弈论提供了有效的解概念来描述多智能体系统的学习结果,但主要是在理论上发展,应用于实际问题的范围较窄;深度强化学习算法为智能体的训练提供了可收敛性学习算法,可以在序列决策过程中达到稳定和理性的均衡[１４Ｇ１５].一方面,反事实后悔值最小化算法(CounterFactual RegretMinimization,CFR)[１６]是一种迭代搜索算法,其依托大规模算力支撑,在求解大规模不完美信息博弈策略中脱颖而出,逐渐成为了智能博弈中博弈论范式下的先进代表性算法之一.另一方面,虚拟自博弈算法 (FictitiousSelfＧPlay, FSP)[１７]依托大规模分布式计算框架,在求解多智能体系统问题中成为了一种通用的强化学习框架,先后被成功应用到雷神之锤III [１８]、星际争霸[１９]、王者荣耀[１２]、德州扑克[２０]等复杂大规模对抗场景.CFR 与 FSP是博弈范式和强化学习范式中的典型方法,也是连接两种范式的算法基础.本文将深挖博弈范式与强化学习范式的深层联系,为两种范式的结合提供方向,推动智能博弈技术前向发展,为迈向通用人工智能蓄力.

本文第２节简要介绍了智能博弈对抗,包括智能博弈对抗的内涵与外延、智能博弈对抗发展历史以及智能博弈对抗中的关键挑战;第３节介绍了智能博弈对抗模型,包括博弈论的基础模型———扩展式博弈模型和强化学习的基础模型——— 部分可观随机博弈模型,以及结合扩展式博弈模型与马尔可夫模型的通用模型———观察信息可分解的随机博弈模型,从模型上梳理了博弈理论和强化学习的内在联系;第４节进行了博弈论与强化学习的对比分析,首先详细梳理了博弈论和强化学习视角下的典型对抗方法,分别以 CFR 和 FSP 为代表介绍其具体原理,分析变体改进思路,然后多角度对比分析博弈理论与强化学习的优缺点,探讨后悔值与值函数等基础概念的联系,归纳总结博弈理论与强化学习的结合方法和结合框架;第５节介绍了智能博弈对抗研究前沿,归纳了当前热点前沿智能博弈问题,分别从面向复杂博弈场景的智能博弈模型、多智能体场景下博弈论与强化学习融合的智能博弈方法、结合对手建模的智能博弈方法,以及结合元学习的多任务场景泛化４个角度讨论了智能博弈前沿研究;最后总结全文.

智能博弈对抗简介

智能博弈对抗的内涵与外延

广义上的智能概念涵盖了人工智能、机器智能、混合智能和群体智能.本文的智能概念特指认知智能中机器的自主决策能力,即机器智能,表现为机器模拟人类的行为、思考方式,通过摄像头、话筒等传感器接收外界数据,与存储器中的数据进行对比、识别,从而进行判断、分析、推理、决策.机器智能智能水平的高低可分为若干层次,如从最简单的应激反射算法到较为基础的控制模式生成算法,再到复杂神经网络和深度学习算法.博弈对抗指代以对抗关系为主的博弈,在冲突为主的背景下博弈方 (拥有理性思维的个体或群体)选择行为或策略加以实施,并从中取得各自相应的结果或收益[２１].博弈与对抗是人类演化进程中的重要交互活动,是人类智能和人类思维方式的重要体现.这种交互活动广泛存在于个体与个体、个体与群体、群体与群体之间.

智能博弈对抗发展历史

博弈对抗不断推动着智能水平的发展,对抗场景从早期的“图灵测试”到目前的“通用场景”探索,不断向真实世界场景靠拢. ２０１６年,DeepMind基于深度强化学习和蒙特卡洛树搜索开发的智能围棋博弈程序 AlphaGo [８],以４∶１的分数战胜了人类顶级围棋选手李世石,这标志着人工智能的发展重点逐渐由感知智能向认知智能过渡.同年,辛辛那提大学基于遗传模糊树构建的 AlphaAI空战系统[２２]在空战对抗中击败人类飞行员,这成为了无人系统博弈对抗能力生成的推动性进展.２０１７年,DeepMind提出的基于自博弈强化学习的棋类 AIAlphaZero [２３]可以从零开始自学围棋、国际象棋和将棋,并击败了 AlphaGo.以围棋为代表的完全信息博弈已基本得到解决,智能博弈的研究开始转向德州扑克和星际争霸等不完全信息博弈.同年,阿尔伯塔大学和卡内基梅隆大学先后开发了智能德州扑克博弈程序 DeepStack [２４]和 LibraＧ tus [２５],在人机对抗中击败了职业玩家.２０１８年,DeepＧ Mind在雷神之锤III夺旗游戏中提出了一种基于种群训练的多智能体强化学习框架[１８],训练构建的 AIFTW 的性能超越了人类玩家水平.随后,智能博弈朝着多智能体参与、通用场景扩展迁移等方向不断发展,高效海量数据的实时采样(数据)、大规模算力加速采样和优化 (算力)、大规模集群架构算法(算法)成为了多智能体强化学习成功的关键.博弈均衡的方法在多智能体博弈中仍存在理论上的局限性,但基于两人框架的多人博弈扩展依旧在实验中具有较好表现,如２０１９年卡内基梅隆大学的六人德州扑克智能博弈程序 Pluribus [１０]击败了多名职业玩家. 随后,智能博弈的研究趋势开始形成 “高质量对抗数据引导”＋“分布式强化学习训练”的模式(如麻将 AISuphx,星际争霸 AIAlphaStar [１９],谷歌足球 AI觉悟ＧWeKick),并逐渐摆脱先验知识,直接完成 “端到端 ”的学习 (如捉迷藏 AI [２６]、斗地主 AI DouZero [２７]、两人德州扑克 AI AlＧ phaHoldem [２０]).２０２１年,DARPA 举办的 AlphaDogFight 挑战赛[２８]推动了无人系统博弈对抗能力的提升.另一方面,DARPA 开始布局通用 AI的探索性项目,推动智能博弈向强人工智能迈进.智能博弈对抗发展历程与典型应用总结如图１所示.

内容中包含的图片若涉及版权问题，请及时与我们联系删除

「智能博弈对抗方法」最新2022综述-博弈论与强化学习综合视角对比分析

评论