【标题】Distributionally Adaptive Meta Reinforcement Learning

【作者团队】Anurag Ajay, Abhishek Gupta, Dibya Ghosh, Sergey Levine, Pulkit Agrawal

【发表日期】2022.10.6

【论文链接】https://arxiv.org/pdf/2210.03104.pdf

【推荐理由】元强化学习算法提供了一种数据驱动的方式来获取策略,这些策略可以快速适应具有不同奖励或动态函数的许多任务。然而,学习到的元策略通常只对他们接受训练的确切任务分布有效,并且在测试时间奖励的分布变化或过渡动态的存在下努力。本文为元强化学习算法开发了一个框架,该框架能够在任务空间中的测试时间分布变化下表现适当。本文框架集中在分布稳定性的自适应方法上,该方法训练大量元策略对不同水平的分布变化具有稳定性。当对可能发生变化的测试时间分布的任务进行评估时,能够选择具有最合适稳定性水平的元策略,并用它来进行快速适应。实验正式展示此框架如何在分布变化下改善缺陷,并通过经验证明其在广泛分布变化下模拟机器人问题的有效性。