《强化学习周刊》第77期：分层强化学习最新研究进展、DeepMind提出UFLP，实现样本高效率

关于周刊：

关于周刊订阅：

告诉大家一个好消息，《强化学习周刊》开启“订阅功能”，以后我们会向您自动推送最新版的《强化学习周刊》。订阅方法：

1，注册智源社区账号

2，点击周刊界面左上角的作者栏部分“强化学习周刊”（如下图），进入“强化学习周刊”主页。

3，点击“关注TA”（如下图）

4，您已经完成《强化学习周刊》订阅啦，以后智源社区会自动向您推送最新版的《强化学习周刊》！

导语：

强化学习作为人工智能领域研究热点之一，其在人工智能领域以及学科交叉研究中的突出表现，引起越来越多的研究人员对该领域的关注。为更好地服务相关研究人员及时了解强化学习领域的研究进展以及科研资讯，智源社区结合以前工作基础及读者反馈，在论文推荐基础之上新增科研资讯、学术讲座、强化学习教程、相关招聘等板块，撰写为第77期《强化学习周刊》以飨诸位。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动强化学习社群的分享、学习和交流活动。社区将定期为推动强化学习社群建设表现优异的同学提供精美的奖品。可以扫描文末的二维码加入强化学习社区群。

本期贡献者：（李明，刘青、小胖）

导读

强化学习已经成为人工智能研究领域的热点，其在各个应用领域中取得了瞩目的成就。《强化学习周刊》共分四个板块，论文推荐板块为读者梳理了分层强化学习最近研究成果中的中12篇有关研究论文；另外科研咨询板块为读者分享DeepMind提出UFLP，实现样本高效率，在每次数据收集迭代中，元算法都有一定的概率将环境重置为具有高度不确定性的观察状态，而不是根据初始状态分布进行采样。然后智能体-环境交互像标准在线 RL 设置一样进行。招聘板块分享悉尼科技大学招收全奖博士生(人工智能方向)。本次教程推荐板块为动手学强化学习(Hands-on reinforcement learning)，在这个强化学习课程中，作者将使用简洁的Python代码，教你在动手中学习强化学习，循序渐进的带你从ZERO到HERO。让我们一起走过这条从基础知识到尖端深度强化学习的美好道路！所有教程代码同步发布在github。

标题：Hierarchical Imitation Learning with Vector Quantized Models(Aalto University | 基于矢量量化模型的分层模拟学习)

简介：在多个抽象级别上计划操作的能力使智能代理能够有效地解决复杂任务。然而，从演示中学习低层次和高层次规划的模型已被证明具有挑战性，尤其是在高维度输入的情况下。为了解决这个问题，该文建议使用强化学习来识别专家轨迹中的子目标，方法是将奖励的大小与给定状态和所选子目标的低级别行动的可预测性相关联。文章为所识别的子目标建立了一个向量量化生成模型，以执行子目标级规划。在实验中，该算法在解决复杂的、长期的决策问题方面优于最先进的算法。由于其计划能力，算法可以找到比训练集中更好的轨迹.

《强化学习周刊》第77期：分层强化学习最新研究进展、DeepMind提出UFLP，实现样本高效率

评论