深度分层强化学习是深度强化学习领域的一个重要研究方向,它重点关注经典深度强化学习难以解决的 稀疏奖励、顺序决策和弱迁移能力等问题.其核心思想在于,根据分层思想构建具有多层结构的强化学习策略,运用 时序抽象表达方法组合时间细粒度的下层动作,学习时间粗粒度的、有语义的上层动作,将复杂问题分解为数个简 单问题进行求解.近年来,随着研究的深入,深度分层强化学习方法已经取得了实质性的突破,且被应用于视觉导航、 自然语言处理、推荐系统和视频描述生成等生活领域.该文首先介绍了分层强化学习的理论基础;然后描述了深度 分层强化学习的核心技术,包括分层抽象技术和常用实验环境;详细分析了基于技能的深度分层强化学习框架和基 于子目标的深度分层强化学习框架,对比了各类算法的研究现状和发展趋势;接下来介绍了深度分层强化学习在多 个现实生活领域中的应用;最后,对深度分层强化学习进行展望和总结.

点击跳转文章

强化学习(reinforcement learning,简称 RL)是机器学习领域的一个重要分支,它以马尔可夫决策过程 (markov decision process,简称 MDP)为理论基础,是一种交互式学习方法[1] .深度强化学习(deep reinforcementlearning,简称 DRL)作为深度学习(deep learning,简称 DL)[2]和 RL 的结合算法,同时具备了 DL的感知能力和 RL的决策能力,初步形成从输入原始数据到输出动作控制的完整智能系统.近些年,刘全等人[3]对 DRL进行了全面 的分析和解读,总结了深度

分层强化学习(hierarchical reinforcement learning,简称 HRL)[7]作为 RL的重要分支,与经典 RL方法的最大 区别在于,它以半马尔可夫决策过程(semi-markov decision process,简称 SMDP)[8]为理论基础,基于分层抽象技 术,从结构上对 RL 进行改进,重点关注 RL 难以解决的稀疏奖励、顺序决策和弱迁移能力等问题,实现了更强的 探索能力和迁移能力.但是,HRL 仍然存在计算能力不足,无法对状态特征进行高效表达的问题,通常只能处理 离散状态-动作空间任务.在 DRL 的成功应用后,深度分层强化学习(deep hierarchical reinforcement learning,简 称 DHRL)[9]同样将 DL 方法引入 HRL 框架,不仅从理论层面对 HRL 进行了拓展,还利用深度网络实现了更强的 特征提取能力和策略学习能力,构建了更有效、更灵活的分层结构,可以有效解决更复杂的任务[10].随着 DHRL理论的发展和完善,逐步形成了,以下层策略学习基础任务实现能力,上层策略学习下游任务解决方案的问题求 解路线.目前,DHRL 已经被广泛应用于视觉导航[11]、自然语言处理[12]、推荐系统[13]和视频描述生成[14]等真实 世界应用领域. 

为了对 DHRL 进行系统的分析和总结,我们首先在中国计算机学会推荐国际学术会议和期刊,以及 CNKI论文数据库中,以“hierarchical reinforcement learning”,“option reinforcement learning”和“subgoal reinforcementlearning”等关键词进行检索,并在谷歌学术中,将被引次数超过 500 的核心论文[1, 15-17]作为基准,检索引用了这些 论文的HRL和 DHRL论文;然后通过人工审查方式,对已检索的论文进行筛选,排除与研究问题无关和已被收录 的网络论文.我们用图 1 和图 2 对所筛选论文进行展示.图 1 反映了从 1998 年(HRL理论基础被提出的年份[8])至 2021 年(截止到 2021 年 6 月),在各类会议、期刊和网络上,较有影响力的 HRL和 DHRL相关论文的数量及 刊载情况,它们中的绝大多数都被收录于 CCF A 类会议(112 篇)、CCF B类会议(25篇)、SCI 一区期刊(7篇)和 SCI 二区期刊(22 篇).图 2 反映了从 1998 年至 2021 年(截止到 2021 年 6 月),HRL和 DHRL相关论文的被引次 数.从图 1 和图 2 可以看出,一方面,HRL 与 DHRL 的研究热度逐年增加,尤其是在 2016之后,随着 DL的发展和 DRL 的出现,国内外学者对 DHRL 的关注程度与日俱增.另一方面,相关论文的被引次数在 1999年和 2017年出 现高峰,这与 RL 奠基工作的开展和 DRL 的飞跃式发展有着密切关系.

本文以 HRL 基础理论为研究脉络,重点关注 DHRL 的研究现状和发展趋势. 第1章对 HRL的基础理论进 行介绍;第 2 章描述了 DHRL 的核心技术,包括可以解决的问题、常用实验环境和 DHRL主流框架的划分依据;第 3、4 章分析了两种 DHRL 框架下的核心算法,详细说明了各类算法的发展历程、研究重心和优缺点;第 5章 对 DHRL 在现实生活领域中的应用进行介绍;第 6、7 章对 DHRL 进行展望和总结.

内容中包含的图片若涉及版权问题,请及时与我们联系删除