- 简介尽管离线学习取得了一些进展,但这些方法仍是在同一环境下进行训练和测试。本文比较了广泛使用的在线强化学习(Online RL)、离线强化学习(Offline RL)、序列建模和行为克隆等学习方法的泛化能力。我们的实验表明,离线学习算法在新环境下的表现比在线学习差。我们还引入了第一个用于评估离线学习泛化性能的基准测试,从Procgen(2D视频游戏)和WebShop(电子商务网站)中收集不同规模和技能水平的数据集。数据集包含有限数量的游戏关卡轨迹或自然语言指令,测试时,代理必须对新的关卡或指令进行泛化。我们的实验表明,现有的离线学习算法在训练和测试环境中都难以与在线RL的表现相匹配。行为克隆是一个强大的基准线,当在多个环境的数据上进行训练并在新环境上进行测试时,其表现优于最先进的离线RL和序列建模方法。最后,我们发现,增加数据的多样性而不是规模,可以提高所有离线学习算法在新环境下的表现。我们的研究证明了当前离线学习算法的泛化能力有限,强调了在这一领域需要进行更多的研究。
- 图表
- 解决问题比较在线学习和离线学习的泛化能力,提出离线学习的泛化能力较差,需要更多研究
- 关键思路比较了在线学习和离线学习方法,提出了离线学习算法的泛化能力较差,需要增加数据集的多样性,同时行为克隆是一种有效的基准线
- 其它亮点提出了离线学习的泛化能力评测基准,使用了Procgen和WebShop数据集,实验结果表明离线学习算法在新环境中的表现不如在线学习算法,行为克隆是一种有效的基准线
- 最近的相关研究包括《Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems》
沙发等你来抢
去评论
评论
沙发等你来抢