【标题】Lifelong reinforcement learning with temporal logic formulas and reward machines

【作者团队】Xuejing Zheng, Chao Yu, Minjie Zhang

【发表日期】2022.8.11

【论文链接】https://www.sciencedirect.com/science/article/pii/S0950705122008358

【推荐理由】使用高级思想或知识不断学习新任务是人类的一项关键能力。在本文中,提出了使用顺序线性时间逻辑公式和奖励机(LSRM) 的终身强化学习,这使智能体能够利用先前学习的知识来加速逻辑指定任务的学习。为了更灵活地规范任务,本文首先引入顺序线性时序逻辑(SLTL),它是对现有线性时序逻辑(LTL)形式语言的补充。然后本文利用奖励机器(RMs) 为使用高级事件编码的任务利用结构奖励功能,并提出 RMs 的自动扩展和对任务的有效知识转移,以实现持续的终身学习。实验结果表明,LSRM 通过利用 SLTL 的任务分解和终身学习过程中 RM 上的知识转移,优于从头开始学习目标任务的方法。

内容中包含的图片若涉及版权问题,请及时与我们联系删除