【标题】Modular Lifelong Reinforcement Learning via Neural Composition

【作者团队】Jorge A. Mendez, Harm van Seijen, Eric Eaton

【发表日期】2022.7.1

【论文链接】https://arxiv.org/pdf/2207.00429.pdf

【推荐理由】人类解决复杂问题的方法通常是将其分解为较容易的子问题,然后将子问题的解决方案结合起来。这种类型的组合推理允许在处理共享部分基本组合结构的未来任务时重复使用子问题的解决方案。在持续或终身强化学习(RL)的环境中,这种将知识分解成可重复使用的组件的能力将使智能体能够通过利用积累的组合结构快速学习新的RL任务。本文探索了一种基于神经模块的特殊形式的组合,并提出了一组直观地承认组合解决方案的RL问题。从经验上看,本文证明了神经组合确实捕捉到了这个问题空间的基本结构。并且本文进一步提出了一种组合式的终身RL方法,该方法利用积累的神经组件来加速学习未来的任务,同时通过重放经验的离线RL来保留先前任务的性能。