【标题】Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning

【作者团队】Shuang Qiu, Lingxiao Wang, Chenjia Bai, Zhuoran Yang, Zhaoran Wang

【发表日期】2022.7.29

【论文链接】https://arxiv.org/pdf/2207.14800.pdf

【推荐理由】对比自我监督学习由于在提取特征表示方面的能力,已成功地融入(深度)强化学习(RL)的实践中,从而在各种应用中实现了高效的策略学习。但对强化学习对比学习的理解仍然难以捉摸。为了缩小这种差距,本文研究了如何通过对比学习在一类马尔可夫决策过程 (MDP) 和具有低秩转换的马尔可夫博弈 (MG) 中增强 RL。对于这两个模型,本文建议通过最小化对比损失来提取低秩模型的正确特征表示。此外,在在线设置下,本文提出了新的置信上限 (UCB) 类型算法,该算法将这种对比损失与用于 MDP 或 MG 的在线 RL 算法相结合。本文进一步从理论上证明,此算法恢复了真实表示,同时在学习 MDP 和 MG 中的最优策略和纳什均衡方面实现了样本效率。本文提供了第一个可证明有效的在线 RL 算法,该算法将对比学习用于表示学习。

内容中包含的图片若涉及版权问题,请及时与我们联系删除