- 简介强化学习(RL)提供了一个有前途的框架,通过环境交互来学习策略,但通常需要大量的交互数据才能从稀疏的奖励中解决复杂的任务。其中一个方向是将RL与演示所需任务的离线数据相结合,但过去的研究通常需要大量的高质量演示数据,这在机器人等领域特别难以获得。我们的方法包括一个反向课程和一个正向课程。与过去的研究相比,我们方法的独特之处在于能够通过状态重置生成每个演示的反向课程,从而有效地利用多个演示。我们反向课程的结果是一个初始策略,它在狭窄的初始状态分布上表现良好,并有助于克服困难的探索问题。然后使用正向课程来加速训练初始策略,使其在任务的完整初始状态分布上表现良好,并提高演示和样本效率。我们展示了反向课程和正向课程在我们的方法RFCL中的组合,相比各种最先进的从演示中学习的基线,能够显著提高演示和样本效率,甚至解决以前无法解决的需要高精度和控制的任务。
-
- 图表
- 解决问题如何通过离线数据提高强化学习中的演示和样本效率,特别是在机器人领域?
- 关键思路通过反向课程表和正向课程表相结合的方法,提高演示和样本效率,解决了之前难以解决的需要高精度和控制的任务。
- 其它亮点该方法在多个学习从演示中的基线模型上得到了显著的演示和样本效率改进,甚至解决了之前难以解决的任务。实验使用了多个数据集,并且代码已经开源。
- 最近的相关研究包括:Learning from Demonstrations using Signal Temporal Logic Constraints, Learning from Demonstrations with Inverse Reinforcement Learning via Variational Autoencoder and Generative Adversarial Networks, Learning from Demonstrations with Suboptimal Demonstrations,等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流