- 简介元强化学习(meta-RL)是处理需要高效探索的具有挑战性领域的有前途的框架。现有的元-RL算法的特点是样本效率低,并且主要关注低维任务分布。同时,基于模型的RL方法在解决部分可观察的马尔可夫决策过程(MDP)方面取得了成功,其中meta-RL是一个特殊情况。在这项工作中,我们利用这一成功,并提出了一种新的基于模型的meta-RL方法,基于现有最先进的基于模型和meta-RL方法的元素。我们在常见的meta-RL基准领域上展示了我们方法的有效性,取得了更好的样本效率和更大的回报(高达15倍),同时需要非常少的超参数调整。此外,我们还在一系列更具挑战性的高维领域上验证了我们的方法,迈向了真正的现实世界的普适代理。
-
- 图表
- 解决问题本论文旨在提出一种新的基于模型的元强化学习方法,以解决现有元强化学习算法在高维任务分布上的低样本效率问题。
- 关键思路该论文提出的方法是基于现有最先进的模型学习和元强化学习方法的元模型学习方法,能够在元任务上实现更高的回报和更好的样本效率。
- 其它亮点该论文在常见的元强化学习基准测试领域展示了该方法的有效性,取得了更高的回报和更好的样本效率(最高可达15倍),同时需要很少的超参数调整。此外,该论文还在一系列更具挑战性的高维领域验证了该方法的有效性,这是朝着实现真正意义上的通用智能代理迈出的一步。论文使用了多个数据集,并提供了开源代码。
- 最近的相关研究包括:《Learning to Learn without Forgetting by Maximizing Transfer and Minimizing Interference》、《Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks》、《Probabilistic Model-Agnostic Meta-Learning》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流