「深度分层强化学习DHRL」最新2022研究与进展综述

深度分层强化学习是深度强化学习领域的一个重要研究方向,它重点关注经典深度强化学习难以解决的稀疏奖励、顺序决策和弱迁移能力等问题.其核心思想在于,根据分层思想构建具有多层结构的强化学习策略,运用时序抽象表达方法组合时间细粒度的下层动作,学习时间粗粒度的、有语义的上层动作,将复杂问题分解为数个简单问题进行求解.近年来,随着研究的深入,深度分层强化学习方法已经取得了实质性的突破,且被应用于视觉导航、自然语言处理、推荐系统和视频描述生成等生活领域.该文首先介绍了分层强化学习的理论基础;然后描述了深度分层强化学习的核心技术,包括分层抽象技术和常用实验环境;详细分析了基于技能的深度分层强化学习框架和基于子目标的深度分层强化学习框架,对比了各类算法的研究现状和发展趋势;接下来介绍了深度分层强化学习在多个现实生活领域中的应用;最后,对深度分层强化学习进行展望和总结.

点击跳转文章

强化学习(reinforcement learning,简称 RL)是机器学习领域的一个重要分支,它以马尔可夫决策过程 (markov decision process,简称 MDP)为理论基础,是一种交互式学习方法[1] .深度强化学习(deep reinforcementlearning,简称 DRL)作为深度学习(deep learning,简称 DL)[2]和 RL 的结合算法,同时具备了 DL的感知能力和 RL的决策能力,初步形成从输入原始数据到输出动作控制的完整智能系统.近些年,刘全等人[3]对 DRL进行了全面的分析和解读,总结了深度

分层强化学习(hierarchical reinforcement learning,简称 HRL)[7]作为 RL的重要分支,与经典 RL方法的最大区别在于,它以半马尔可夫决策过程(semi-markov decision process,简称 SMDP)[8]为理论基础,基于分层抽象技术,从结构上对 RL 进行改进,重点关注 RL 难以解决的稀疏奖励、顺序决策和弱迁移能力等问题,实现了更强的探索能力和迁移能力.但是,HRL 仍然存在计算能力不足,无法对状态特征进行高效表达的问题,通常只能处理离散状态-动作空间任务.在 DRL 的成功应用后,深度分层强化学习(deep hierarchical reinforcement learning,简称 DHRL)[9]同样将 DL 方法引入 HRL 框架,不仅从理论层面对 HRL 进行了拓展,还利用深度网络实现了更强的特征提取能力和策略学习能力,构建了更有效、更灵活的分层结构,可以有效解决更复杂的任务[10].随着 DHRL理论的发展和完善,逐步形成了,以下层策略学习基础任务实现能力,上层策略学习下游任务解决方案的问题求解路线.目前,DHRL 已经被广泛应用于视觉导航[11]、自然语言处理[12]、推荐系统[13]和视频描述生成[14]等真实世界应用领域.

为了对 DHRL 进行系统的分析和总结,我们首先在中国计算机学会推荐国际学术会议和期刊,以及 CNKI论文数据库中,以“hierarchical reinforcement learning”,“option reinforcement learning”和“subgoal reinforcementlearning”等关键词进行检索,并在谷歌学术中,将被引次数超过 500 的核心论文[1, 15-17]作为基准,检索引用了这些论文的HRL和 DHRL论文;然后通过人工审查方式,对已检索的论文进行筛选,排除与研究问题无关和已被收录的网络论文.我们用图 1 和图 2 对所筛选论文进行展示.图 1 反映了从 1998 年(HRL理论基础被提出的年份[8])至 2021 年(截止到 2021 年 6 月),在各类会议、期刊和网络上,较有影响力的 HRL和 DHRL相关论文的数量及刊载情况,它们中的绝大多数都被收录于 CCF A 类会议(112 篇)、CCF B类会议(25篇)、SCI 一区期刊(7篇)和 SCI 二区期刊(22 篇).图 2 反映了从 1998 年至 2021 年(截止到 2021 年 6 月),HRL和 DHRL相关论文的被引次数.从图 1 和图 2 可以看出,一方面,HRL 与 DHRL 的研究热度逐年增加,尤其是在 2016之后,随着 DL的发展和 DRL 的出现,国内外学者对 DHRL 的关注程度与日俱增.另一方面,相关论文的被引次数在 1999年和 2017年出现高峰,这与 RL 奠基工作的开展和 DRL 的飞跃式发展有着密切关系.

本文以 HRL 基础理论为研究脉络,重点关注 DHRL 的研究现状和发展趋势. 第1章对 HRL的基础理论进行介绍;第 2 章描述了 DHRL 的核心技术,包括可以解决的问题、常用实验环境和 DHRL主流框架的划分依据;第 3、4 章分析了两种 DHRL 框架下的核心算法,详细说明了各类算法的发展历程、研究重心和优缺点;第 5章对 DHRL 在现实生活领域中的应用进行介绍;第 6、7 章对 DHRL 进行展望和总结.

内容中包含的图片若涉及版权问题，请及时与我们联系删除

「深度分层强化学习DHRL」最新2022研究与进展综述

评论