智能博弈对抗是人工智能认知决策领域亟待解决的前沿热点问题.以反事实后悔最小化算法为代表的博弈论方法和 以虚拟自博弈算法为代表的强化学习方法,依托大规模算力支撑,在求解智能博弈策略中脱颖而出,但对两种范式之间的关联 缺乏深入发掘. 文中针对智能博弈对抗问题,定义智能博弈对抗的内涵与外延,梳理智能博弈对抗的发展历程,总结其中的关 键挑战.从博弈论和强化学习两种视角出发,介绍智能博弈对抗模型、算法.多角度对比分析博弈理论和强化学习的优势与局 限,归纳总结博弈理论与强化学习统一视角下的智能博弈对抗方法和策略求解框架,旨在为两种范式的结合提供方向,推动智 能博弈技术前向发展,为迈向通用人工智能蓄力.

https://www.jsjkx.com/CN/10.11896/jsjkx.220200174

 

  1. 导论

对抗是人类社会发展与演进的主旋律,广泛存在于人与 自然、人与人、人与机器之间,是人类思维活动特别是人类智 能的重要体现.人工智能浪潮中,对抗的形式不断发生变化, 贯穿计算智能、感知智能和认知智能3个阶段[1].以对抗关 系为主的博弈研究,为探索认知智能的关键技术原理提供了 有效工具.在认知智能层面,信息环境复杂、对抗对手复杂、 策略求解复 杂 等 愈 发 逼 近 真 实 世 界 的 复 杂 场 景 应 用 需 求, 推动了博弈对抗能力的不断提升.高 度 保 留 真 实 世 界 特 性 (巨复杂、高动态、强对抗)的智能博弈对抗技术逐渐成为了金 融、经济、交通等民用领域的技术引擎和军事智能化实现的重 要助推力.在民用领域,尤其是在保护各种关键公共基础设 施和目标的挑战性任务[3]中,智能博弈对抗技术不可或缺, 例如博物馆、港口、机场等安全机构部署有限的防护资源,在 入口处或者外围路网设置安检口进行警力的巡逻防控[4].在 军事领域,智能博弈技术积极推动了指挥与控制的智能化发 展[5],美国先后启动了“深绿”[6]、指挥官虚拟参谋[7]、“终身学习机器”“指南针”(COMPASS)等项目,旨在缩短“观察G判 断G决策G行动”(OODA)的循环时间.

近年来,在 人 机 对 抗 场 景 中,AlphaGo [8]、AlphaStar [9]、 Pluribus [10]、Suphx [11]、绝 悟[12]等 一 大 批 高 水 平 AI在 游 戏 验证平台中战胜了人类玩家,智能博弈发展取得了显著突破. 智能博弈技术的巨大成功主要依赖于博弈论和强化学习两种 范式的结合[13]:博弈论提供了有效的解概念来描述多智能体 系统的学习结果,但主要是在理论上发展,应用于实际问题的 范围较窄;深度强化学习算法为智能体的训练提供了可收敛 性学习算法,可 以 在 序 列 决 策 过 程 中 达 到 稳 定 和 理 性 的 均 衡[14G15].一方面,反事实后悔值最小化算法(CounterFactual RegretMinimization,CFR)[16]是一种迭代搜索算法,其依托 大规模算力支撑,在求解大规模不完美信息博弈策略中脱颖 而出,逐渐成为了智能博弈中博弈论范式下的先进代表性算 法之一.另 一 方 面,虚 拟 自 博 弈 算 法 (FictitiousSelfGPlay, FSP)[17]依托大规模分布式计算框架,在求解多智能体系统问 题中成为了一种通用的强化学习框架,先后被成功应用到雷 神之锤III [18]、星际争霸[19]、王者荣耀[12]、德州扑克[20]等复杂 大规模对抗场景.CFR 与 FSP是博弈范式和强化学习范式 中的典型方法,也是连接两种范式的算法基础.本文将深挖 博弈范式与强化学习范式的深层联系,为两种范式的结合提 供方向,推动智能博弈技术前向发展,为迈向通用人工智能 蓄力.

本文第2节简要介绍了智能博弈对抗,包括智能博弈对 抗的内涵与外延、智能博弈对抗发展历史以及智能博弈对抗 中的关键挑战;第3节介绍了智能博弈对抗模型,包括博弈论 的基础模型———扩展式博弈模型和强化学习的基础模型——— 部分可观随机博弈模型,以及结合扩展式博弈模型与马尔可 夫模型的通用模型———观察信息可分解的随机博弈模型,从 模型上梳理了博弈理论和强化学习的内在联系;第4节进行 了博弈论与强化学习的对比分析,首先详细梳理了博弈论和 强化学习视角下的典型对抗方法,分别以 CFR 和 FSP 为代 表介绍其具体原理,分析变体改进思路,然后多角度对比分析 博弈理论与强化学习的优缺点,探讨后悔值与值函数等基础 概念的联系,归纳总结博弈理论与强化学习的结合方法和结 合框架;第5节介绍了智能博弈对抗研究前沿,归纳了当前热 点前沿智能博弈问题,分别从面向复杂博弈场景的智能博弈 模型、多智能体场景下博弈论与强化学习融合的智能博弈方 法、结合对手建模 的 智 能 博 弈 方 法,以 及 结 合 元 学 习 的 多 任务场景泛化4个角度讨论了智能 博 弈 前 沿 研 究;最 后 总 结全文.

 

  1. 智能博弈对抗简介

智能博弈对抗的内涵与外延 

广义上的智能概念涵盖了人工智能、机 器 智 能、混 合 智 能和群体智能.本 文 的 智 能 概 念 特 指 认 知 智 能 中 机 器 的 自主决策能力,即机器智能,表现为机器模 拟 人 类 的 行 为、思考方式,通过摄像头、话筒等传感器接收 外 界 数 据,与 存 储器中的数据进行对比、识别,从而进行判断、分 析、推 理、 决策.机器智能智能水平的高低可 分 为 若 干 层 次,如 从 最 简单的应激反射算法到较为基础的控 制 模 式 生 成 算 法,再 到复杂神经网 络 和 深 度 学 习 算 法.博 弈 对 抗 指 代 以 对 抗 关系为主的博弈,在 冲 突 为 主 的 背 景 下 博 弈 方 (拥 有 理 性 思维的个体或群体)选 择 行 为 或 策 略 加 以 实 施,并 从 中 取 得各自相应的结果或收 益[21].博 弈 与 对 抗 是 人 类 演 化 进 程中的重要交互活动,是人类智能和人 类 思 维 方 式 的 重 要 体现.这种 交 互 活 动 广 泛 存 在 于 个 体 与 个 体、个 体 与 群 体、群体与群体之间.

智能博弈对抗发展历史

博弈对抗不断推动着智能水平的发展,对抗场景从早期 的“图灵测试”到目前的“通用场景”探索,不断向真实世界场 景靠拢. 2016年,DeepMind基于深度强化学习和蒙特卡洛树搜 索开发的智能围棋博弈程序 AlphaGo [8],以4∶1的分数战胜 了人类顶级围棋选手李世石,这标志着人工智能的发展重点 逐渐由感知智能向认知智能过渡.同年,辛辛那提大学基于 遗传模糊树构建的 AlphaAI空战系统[22]在空战对抗中击败 人类飞行员,这成为了无人系统博弈对抗能力生成的推动性 进展.2017年,DeepMind提出的基于自博弈强化学习的棋 类 AIAlphaZero [23]可以从零开始自学围棋、国际象棋和将 棋,并击败了 AlphaGo.以围棋为代表的完全信息博弈已基 本得到解决,智能博弈的研究开始转向德州扑克和星际争霸 等不完全信息博弈.同年,阿尔伯塔大学和卡内基梅隆大学 先后开发了智能 德 州 扑 克 博 弈 程 序 DeepStack [24]和 LibraG tus [25],在人 机 对 抗 中 击 败 了 职 业 玩 家.2018 年,DeepG Mind在雷神之 锤III夺 旗 游 戏 中 提 出 了 一 种 基 于 种 群 训 练的多智能 体 强 化 学 习 框 架[18],训 练 构 建 的 AIFTW 的 性能超越了人类玩家水平.随后,智 能 博 弈 朝 着 多 智 能 体 参与、通用场景扩 展 迁 移 等 方 向 不 断 发 展,高 效 海 量 数 据 的实时采样(数据)、大 规 模 算 力 加 速 采 样 和 优 化 (算 力)、 大规模集群架构算 法(算 法)成 为 了 多 智 能 体 强 化 学 习 成 功的关键.博弈 均 衡 的 方 法 在 多 智 能 体 博 弈 中 仍 存 在 理 论上的局限性,但基于两人框架的多人 博 弈 扩 展 依 旧 在 实 验中具有较好表 现,如 2019 年 卡 内 基 梅 隆 大 学 的 六 人 德 州扑克 智 能 博 弈 程 序 Pluribus [10]击 败 了 多 名 职 业 玩 家. 随后,智能博弈的研 究 趋 势 开 始 形 成 “高 质 量 对 抗 数 据 引 导”+“分布式强化学习训练”的模式(如麻将 AISuphx,星 际争霸 AIAlphaStar [19],谷歌足球 AI觉悟GWeKick),并 逐 渐摆脱先验 知 识,直 接 完 成 “端 到 端 ”的 学 习 (如 捉 迷 藏 AI [26]、斗 地 主 AI DouZero [27]、两 人 德 州 扑 克 AI AlG phaHoldem [20]).2021 年,DARPA 举 办 的 AlphaDogFight 挑战赛[28]推动了无人系统 博 弈 对 抗 能 力 的 提 升.另 一 方 面,DARPA 开始布局通 用 AI的 探 索 性 项 目,推 动 智 能 博 弈向强人工智 能 迈 进.智 能 博 弈 对 抗 发 展 历 程 与 典 型 应 用总结如图1所示.

内容中包含的图片若涉及版权问题,请及时与我们联系删除