【标题】Learning Task Automata for Reinforcement Learning using Hidden Markov Models

【作者团队】Alessandro Abate (1), Yousif Almulla (1), James Fox (1), David Hyland (1), Michael Wooldridge (1) ((1) University of Oxford)

【发表日期】2022.8.25

【论文链接】https://arxiv.org/pdf/2208.11838.pdf

【推荐理由】当环境具有稀疏和非马尔可夫奖励时,使用标量奖励信号训练强化学习(RL)智能体通常是不可行的。此外,在训练之前手工制作这些奖励函数很容易出现指定错误,特别是当环境的动态仅部分已知时。本文提出了新的管道,用于从未知环境中的agent体验片段中学习非马尔可夫任务规范,作为简洁的有限状态“任务自动机”。其学习由规范的自动机和环境的MDP(初始未知)组成的模型。进而提出了从学习的乘积MDP中提取任务自动机(假设为确定性有限自动机)的新方法,以提高RL智能体稍后合成最优策略的速率。它还提供了高级环境和任务特征的可解释编码,因此人类可以很容易地验证智能体已经学习了连贯的任务,没有错误指定。此外,还采取措施确保学习的自动机与环境无关,使其非常适合用于迁移学习。最后,提供了实验结果,以说明该算法在不同环境和任务中的性能,以及它结合先验领域知识以促进更有效的学习的能力。