【标题】History Compression via Language Models in Reinforcement Learning

【作者团队】Fabian Paischer, Thomas Adler, Vihang Patil

【发表日期】2022.9.1

【论文链接】https://arxiv.org/pdf/2205.12258.pdf

【推荐理由】在部分可观察马尔可夫决策过程(POMDP)中,智能体通常使用过去的表示来近似底层MDP。本文作者建议使用冻结的预训练语言转换器(PLT)进行历史表示和压缩,以提高采样效率。为了避免训练Transformer,作者引入了FrozenHopfield,它可以自动将观察值与预处理的标记嵌入相关联。为了形成这些关联,现代Hopfield网络存储了这些标记嵌入,这些标记嵌入通过随机但固定的观测投影获得的查询进行检索。本文的新方法HELM支持Actor-Critic网络架构,该架构包含一个预处理语言Transformer,用于将历史表示为内存模块。由于不需要学习对过去的描述,HELM比竞争对手更具样本效率。在Minigrid和Procgen环境中,HELM取得了当前最好的成绩。

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除