【标题】Accounting for the Sequential Nature of States to Learn Features for Reinforcement Learning
【作者团队】Nathan Michlo, Devon Jarvis, Richard Klein, Steven James
【发表日期】2022.5.12
【论文链接】https://arxiv.org/pdf/2205.06000.pdf
【推荐理由】本文研究了导致流行表征学习方法失败的数据属性。研究发现在状态没有明显重叠的环境中,变分自动编码器(VAE)无法学习有用的特征。其在一个简单的网格世界域中演示了这种失败,然后以度量学习的形式提供了解决方案。然而,度量学习需要以距离函数的形式进行监督,这在强化学习中是不存在的。为了克服这个问题,本文利用重播缓冲区中状态的顺序性质来近似距离度量,并在时间上接近的状态在语义上也相似的假设下提供弱监督信号。其修改了一个三重态丢失的VAE,并证明了在标准VAE失效的环境中,这种方法能够在没有额外监督的情况下学习下游任务的有用特性。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢