题目:Instabilities of Offline RL with Pre-Trained Neural Representation 作者:Ruosong Wang,Yifan Wu,Ruslan Salakhutdinov,Sham M. Kakade 单位:CMU 时间:2021/03
本文从实证的角度,对离线预训练网络的强化学模型中存在的问题进行了研究,从多个角度衡量了现有的RL系统的稳定性。
离线强化学习(RL)中,往往利用离线数据来评估(或学习)策略,这些数据是从与待评估目标策略显著不同的分布中收集的。最近的理论进展表明,这种sample-efficient离线RL确实可能提供某些强大的表征条件,但有些情况会出现指数误差放大的现象。本文从实证的角度对这些问题进行了研究,以衡量离线RL方法的稳定性。方法在使用预训练的神经网络的特征时探索了这些想法。实验表明,即使使用这些预训练过的表征(在同一任务上训练过),也会出现大量的错误放大。作者同时发现,离线的RL只有在非常轻微的分布变化下才稳定。从理论和经验的角度来看,这些结果的含义是,成功的离线RL(我们寻求超越低分布转移机制)需要实质上更强的条件。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢