【标题】Sequential Episodic Control(连续片段控制)

【作者团队】 Ismael T. Freire, Adrián F. Amil, Paul F. M. J. Verschure。University of Oxford

【发表日期】29 December, 2021

【论文链接】https://arxiv.org/pdf/2112.14734.pdf

【推荐理由】最先进的深度强化学习算法由于需要大量的事件才能达到渐近性能,因此效率低下。受哺乳动物海马体启发的情节强化学习(ERL)算法通常使用扩展记忆系统从过去事件中引导学习,以克服样本效率低下的问题。然而,这种记忆增强通常仅仅用作缓冲区,从中提取孤立的过去经验,以离线方式学习(例如,回放)。在这里,文章证明了在获取的记忆内容中包含一个偏差,该偏差来自于情景采样的顺序,可以提高情景控制算法的样本和记忆效率。文章在觅食任务中测试了的顺序情节控制(SEC)模型,以表明存储和使用集成的情节作为事件序列会导致更快的学习,并且内存需求更少,这与标准ERL基准、无模型情节控制(仅缓冲孤立事件)相反。还研究了记忆约束和遗忘对顺序和非顺序SEC算法的影响。此外,还讨论了类似海马的快速记忆系统如何引导哺乳动物大脑皮层和皮层下学习习惯的形成。

内容中包含的图片若涉及版权问题,请及时与我们联系删除