【标题】Offline Meta-Reinforcement Learning with Online Self-Supervision

【作者团队】Vitchyr H. Pong, Ashvin Nair, Laura Smith, Catherine Huang, Sergey Levine

【发表日期】2022.7.7

【论文链接】https://arxiv.org/pdf/2107.03974.pdf

【推荐理由】离线元强化学习消除了持续提供奖励监督的需要,因为在生成离线数据集时必须只提供一次奖励。除了离线 RL 的挑战之外,元 RL 中还存在一个独特的分布转变:智能体学习探索策略,但适应策略不适应学习探索策略收集的数据分布。与在线设置不同,适应和探索策略不能有效地相互适应,导致性能不佳。本文提出了一种混合离线元强化学习算法,它使用带有奖励的离线数据对自适应策略进行元训练,然后收集额外的无监督在线数据,没有任何真实奖励标签,以解决这个分布偏移问题。此方法使用离线数据来学习奖励函数的分布,然后对额外的在线数据进行采样以自我监督奖励标签。通过消除为在线体验提供奖励标签的需要,可以更实用地用于手动提供奖励监督的环境中。

内容中包含的图片若涉及版权问题,请及时与我们联系删除