Reverse Forward Curriculum Learning for Extreme Sample and Demonstration Efficiency in Reinforcement Learning

简介

强化学习（RL）提供了一个有前途的框架，通过环境交互来学习策略，但通常需要大量的交互数据才能从稀疏的奖励中解决复杂的任务。其中一个方向是将RL与演示所需任务的离线数据相结合，但过去的研究通常需要大量的高质量演示数据，这在机器人等领域特别难以获得。我们的方法包括一个反向课程和一个正向课程。与过去的研究相比，我们方法的独特之处在于能够通过状态重置生成每个演示的反向课程，从而有效地利用多个演示。我们反向课程的结果是一个初始策略，它在狭窄的初始状态分布上表现良好，并有助于克服困难的探索问题。然后使用正向课程来加速训练初始策略，使其在任务的完整初始状态分布上表现良好，并提高演示和样本效率。我们展示了反向课程和正向课程在我们的方法RFCL中的组合，相比各种最先进的从演示中学习的基线，能够显著提高演示和样本效率，甚至解决以前无法解决的需要高精度和控制的任务。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何通过离线数据提高强化学习中的演示和样本效率，特别是在机器人领域？
关键思路

通过反向课程表和正向课程表相结合的方法，提高演示和样本效率，解决了之前难以解决的需要高精度和控制的任务。
其它亮点

该方法在多个学习从演示中的基线模型上得到了显著的演示和样本效率改进，甚至解决了之前难以解决的任务。实验使用了多个数据集，并且代码已经开源。
相关研究

最近的相关研究包括：Learning from Demonstrations using Signal Temporal Logic Constraints, Learning from Demonstrations with Inverse Reinforcement Learning via Variational Autoencoder and Generative Adversarial Networks, Learning from Demonstrations with Suboptimal Demonstrations,等。

Reverse Forward Curriculum Learning for Extreme Sample and Demonstration Efficiency in Reinforcement Learning

提问交流

提问交流