【标题】Learning Reward Machines: A Study in Partially Observable Reinforcement Learning(学习奖励机:部分可观察强化学习的研究)

【作者团队】 Rodrigo Toro Icarte, Ethan Waldie, Toryn Q. Klassen, Richard Valenzano, Margarita P. Castro, Sheila A. McIlraith。Pontificia Universidad Cat´olica de Chile。

【发表日期】 17 December, 2021

【论文链接】https://arxiv.org/pdf/2112.09477.pdf

【推荐理由】强化学习是人工智能的核心问题。这个问题包括定义人工智能体,这些智能体可以通过与环境交互来学习最佳行为——在环境中,最佳行为是根据智能体寻求最大化的奖励信号来定义的。奖励机器(RMs)提供了奖励函数的结构化、基于自动机的表示,使RL代理能够将RL问题分解为结构化子问题,这些子问题可以通过非策略学习有效地学习。在这里,文章表明RMs可以从经验中学习,而不是由用户指定,并且由此产生的问题分解可以有效地解决部分可观察的RL问题。本文将学习RMs的任务视为一个离散优化问题,其目标是找到一个RM,该RM将问题分解为一组子问题,使其最优无记忆策略的组合成为原始问题的最优策略。文章展示了这种方法在三个部分可观察领域的有效性,在这三个领域,它的表现明显优于A3C、PPO和ACER,并讨论了其优势、局限性和更广泛的潜力。

内容中包含的图片若涉及版权问题,请及时与我们联系删除