【标题】Robust Task Representations for Offline Meta-Reinforcement Learning via Contrastive Learning

【作者团队】Haoqi Yuan, Zongqing Lu

【发表日期】2022.6.21

【论文链接】https://arxiv.org/pdf/2206.10442.pdf

【推荐理由】本文主要研究内容为离线元强化学习,这是一种实用的强化学习范式,可以从离线数据中学习以适应新任务。 离线数据的分布由行为策略和任务共同决定。 现有的离线元强化学习算法无法区分这些因素,使得任务表示对行为策略的变化不稳定。 为了解决这个问题,作者提出了一个任务表示的对比学习框架——CORRO(COntrastive Robust task Representation learning for OMRL),该框架对训练和测试中行为策略的分布不匹配具有鲁棒性。 作者设计了一个双层编码器结构,使用互信息最大化来形式化任务表示学习,推导出对比学习目标,并引入几种方法来近似负对的真实分布。 对各种离线元强化学习基准的实验证明了本文的方法相对于先前方法的优势,特别是在对分布外行为策略的泛化方面。

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除