图片

作为解决序贯决策的机器学习方法,强化学习采用交互试错的方法学习最优策略,能够契合人类的智能决策方 式。基于课程学习的深度强化学习是强化学习领域的一个研究热点,它针对强化学习智能体在面临高维状态空间和动作 空间时学习效率低、难以收敛的问题,通过抽取一个或多个简单源任务训练优化过程中的共性知识,加速或改善复杂目标 任务的学习。论文首先介绍了课程学习的基础知识,从四个角度对深度强化学习中的课程学习最新研究进展进行了综 述,包括基于网络优化的课程学习、基于多智能体合作的课程学习、基于能力评估的课程学习、基于功能函数的课程学习。然后对课程强化学习最新发展情况进行了分析,并对深度强化学习中的课程学习的当前存在问题和解决思路进行了总结 归纳。最后,基于当前课程学习在深度强化学习中的应用,对课程强化学习的发展和研究方向进行了总结。

http://www.xactad.net/oa/darticle.aspx?type=view&id=20221103

 

1. 引言

强化学习(Reinforcement Learning,RL) 作为机器 学习分支之一,在人工智能领域具有重要地位[1] :智能 体在环境中通过“交互-试错冶获取正/ 负奖励值,调整 自身的动作策略,从而生成总奖励值最大的动作策略 模型[2]。传统强化学习方法在有限状态空间和动作空间的 任务中能够取得较好的收敛效果[3] ,但复杂空间状态 任务往往具有很大的状态空间和连续的动作空间,尤 其当输入数据为图像和声音时,传统强化学习很难处 理,会出现维度爆炸问题[4 -5 ] 。解决上述问题的一个 方法,就是将强化学习和深度神经网络(Deep Neural Network,DNN)结合,用多层神经网络来显式表示强 化学习中的值函数和策略函数[6] 。

深度 强 化 学 习 ( Deep Reinforcement Learning, DRL)将深度学习的感知能力和强化学习的决策能力 相结合[7],近年来在人工智能领域迅猛发展,例如 Atari 游戏[8 -9 ] 、复杂机器人动作控制[10 -11 ] ,以及围棋 AlphaGo 智能的应用[12]等,2015 年机器学习领域著名 专家 Hinton、Bengio、Lecun 在《Nature》 上发表的深度 学习综述一文将深度强化学习作为深度学习的重要发 展方向[13] 。

尽管在过去三十年间取得很大进步,但由于标准 强化学习智能体的初始设定都是随机策略,在简单环 境中通过随机探索和试错,能够达成较好的训练效 果[14] 。但在复杂环境中由于状态空间的复杂性、奖励 信号的稀疏性,强化学习从环境中获取样本的成本不 断提高,学习时间过长,从而影响了智能体的有效 探索[15]

解决上述问题的一个有效途径,就是将课程学习 (Curriculum Learning,CL)和深度强化学习相结合[16]。2009 年,以机器学习领军人物 Bengio 为首的科研团队 在国际顶级机器学习会议 ICML 上首次提出课程学习 的概念[17] ,引起机器学习领域的巨大轰动。课程学习 借鉴人类从简单到复杂的学习思想,首先在任务集中 筛选出部分简单任务进行学习以产生训练课程,而后 在剩余的复杂任务中利用训练课程进行学习,最后在 整个训练集中进行训练。将课程学习和深度强化学习 相结合,可以有以下两个方面的作用[18] :(1)可以加快 训练模型的收敛速度,避免训练初期对于复杂任务投 入过多训练时间;(2)提高模型的泛化能力,增强对复 杂任务的学习能力。

该文首先对课程学习进行简要描述,从四个角度 对深度强化学习中的课程学习进行了分类整理,之后 对近三年的基于课程学习的深度强化学习新算法进行 了总结分析,最后讨论了基于课程学习的深度强化学 习的发展前景和挑战。

内容中包含的图片若涉及版权问题,请及时与我们联系删除