【作者团队】Bang You, Oleg Arenz, Youping Chen, Jan Peters
【作者单位】 Huazhong University of Science and Technology
【论文链接】https://www.sciencedirect.com/science/article/pii/S0925231221019500#!
【推荐理由】图像强化学习方法使用辅助任务来学习智能体策略或 Q 函数使用的图像特征。尤其基于对比学习的方法,诱导潜在动态的线性或数据增强的不变性,已被证明可以大大提高强化学习算法的样本效率和学习嵌入的泛化性。从而进一步认为,明确改进学习嵌入的马尔可夫性是可取的,并提出了一种自我监督的表示学习方法,该方法将对比学习与动态模型相结合,以协同组合这三个目标:(1)最大化 InfoNCE 之间的互信息边界状态和动作嵌入以及下一状态的嵌入以在不显式学习线性转换模型的情况下诱导线性预测嵌入;(2)通过使用回归显式学习非线性转换模型来进一步提高学习嵌入的马尔可夫性;(3)本文最大化基于当前动作和当前状态的两个独立增强的下一个嵌入的两个非线性预测之间的互信息,这自然地不仅对于状态嵌入,而且对于非线性引入了变换不变性过渡模型。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢