【作者团队】Martin Riedmiller,Jost Tobias Springenberg,Roland Hafner,Nicolas Heess

【论文链接】https://arxiv.org/pdf/2108.10273.pdf

【推荐理由】本文从数据效率的角度提出了对强化学习 (RL) 的全新看法。数据高效 RL 经历了三个主要阶段:纯在线 RL,其中每个数据点仅被考虑一次,具有重放缓冲区的 RL,其中对部分经验进行额外学习,最后是基于转换记忆的强化学习,从概念上讲,所有转换都被存储并在每个更新步骤中重新使用。虽然从所有明确存储的经验中推断知识导致了数据效率的巨大提高,但如何收集这些数据的问题还没有得到充分的研究。本文认为只有通过仔细考虑这两个方面才能实现数据效率。本文建议通过一个称之为“收集与推断”的范式来明确地表达这一见解,它将强化学习明确建模为两个独立但相互关联的过程,分别涉及数据收集和知识推理。本文讨论范式的含义,反映其思想,以及它如何指导未来对数据高效 RL 的研究。

内容中包含的图片若涉及版权问题,请及时与我们联系删除