- 简介在强化学习中,使用哪些数据或环境来训练以提高下游性能是一个长期而非常时髦的问题。特别是,无监督环境设计(UED)方法因其自适应课程使代理能够对内部和外部分布任务具有鲁棒性而受到关注。我们问这些方法在应用于一个新的设置时自身的鲁棒性有多大,这个设置受到现实世界机器人问题的启发。令人惊讶的是,我们发现最先进的UED方法要么不改进领域随机化(DR)的朴素基线,要么需要大量的超参数调整才能做到。我们的分析表明,这是由于它们的基础评分函数无法预测“可学性”的直观度量,即找到代理有时解决但不总是解决的设置。基于此,我们改为直接在具有高可学性的级别上进行训练,并发现这种简单而直观的方法在几个二元结果环境中优于UED方法和DR,包括我们的领域和Minigrid的标准UED领域。我们进一步引入了一种新的对抗性评估程序,用于直接测量鲁棒性,紧密模拟条件价值在风险(CVaR)。我们开源了我们的所有代码,并在这里呈现最终策略的可视化:https://github.com/amacrutherford/sampling-for-learnability。
- 图表
- 解决问题论文旨在解决强化学习中的一项长期问题,即如何选择数据或环境来提高下游性能。具体来说,论文研究了无监督环境设计(UED)方法在新环境中的鲁棒性问题。
- 关键思路论文发现当前最先进的UED方法要么不能改进基准方法,要么需要大量的超参数调整。这是由于它们的评分函数无法预测直观的“可学习性”度量。因此,论文提出了一种新的方法,直接在具有高可学习性的级别上进行训练。
- 其它亮点论文提出了一种新的方法,直接在具有高可学习性的级别上进行训练,这种方法在几个二元结果环境中表现优于UED方法和基准方法。此外,论文还引入了一种新的对抗性评估程序,用于直接测量鲁棒性。论文的代码已经开源,并提供了最终策略的可视化。
- 最近在这个领域中,也有一些相关的研究,例如:'Learning to Learn without Forgetting by Maximizing Transfer and Minimizing Interference'和'Unsupervised Environment Adaptation for Reinforcement Learning'。
沙发等你来抢
去评论
评论
沙发等你来抢