【标题】Markov Abstractions for PAC Reinforcement Learning in Non-Markov Decision Processes

【作者团队】Alessandro Ronca, Gabriel Paludo Licks, Giuseppe De Giacomo

【发表日期】2022.5.18

【论文链接】https://arxiv.org/pdf/2205.01053.pdf

【推荐理由】本文的工作旨在开发不依赖马尔可夫假设的强化学习算法。 考虑非马尔可夫决策过程的类别,其中历史可以抽象为一组有限的状态,同时保留动态。 作者称其为马尔可夫抽象,因为它在一组编码非马尔可夫动力学的状态上引入马尔可夫决策过程。 这种现象是最近引入的常规决策过程(以及只能达到有限数量的信念状态的 POMDP)的基础。 在所有此类决策过程中,使用马尔可夫抽象的代理可以依靠马尔可夫属性来实现最佳行为。 本文表明可以在强化学习期间学习马尔可夫抽象。 本文的方法结合了自动机学习和经典强化学习。 对于这两项任务,可以采用标准算法。 作者表明,当采用的算法具有 PAC 保证时,本文的方法具有 PAC 保证,并且提供了实验评估。

内容中包含的图片若涉及版权问题,请及时与我们联系删除