【标题】Integrating Contrastive Learning with Dynamic Models for Reinforcement Learning from Images

【作者团队】Bang You, Oleg Arenz, Youping Chen, Jan Peters

【发表日期】2022.3.2

【论文链接】https://arxiv.org/pdf/2203.01810.pdf

【推荐理由】最近的图像强化学习方法使用辅助任务来学习代理策略或Q函数使用的图像特征。基于对比学习的方法在动态线性或对数据增强的不变性,已经被证明可以极大地提高强化学习算法的样本效率和学习嵌入的可推广性。本文提出了将对比学习与动态模型相结合的自监督表征学习方法,将这三个目标协同地结合起来:(1)最大化状态嵌入和动作嵌入之间互信息的信息界以及下一状态的嵌入,从而在不显式学习线性过渡模型的情况下诱导线性预测嵌入,(2)通过使用回归显式学习非线性过渡模型,进一步提高了所学习嵌入的马尔可夫性,(3)基于当前行为和当前状态的两个独立增强,最大化了下一个嵌入的两个非线性预测之间的互信息,这自然不仅会导致状态嵌入的变换不变性,而且还会导致非线性过渡模型的变换不变性。在Deepmind control suite上的实验评估表明,与基于对比学习或重构的先进方法相比,该方法实现了更高的样本效率和更好的泛化。

内容中包含的图片若涉及版权问题,请及时与我们联系删除