【标题】Markov Abstractions for PAC Reinforcement Learning in Non-Markov Decision Processes
【作者团队】Alessandro Ronca, Gabriel Paludo Licks, Giuseppe De Giacomo
【发表日期】2022.4.29
【论文链接】https://arxiv.org/pdf/2205.01053.pdf
【推荐理由】本文的工作旨在开发不依赖马尔可夫假设的强化学习算法。本文考虑一类非马尔可夫决策过程,其中历史可以抽象为一组有限的状态,同时保持动态。作者称之为马尔可夫抽象,因为它在编码非马尔可夫动态的一组状态上诱导了马尔可夫决策过程。这种现象是最近引入的规则决策过程(以及只有有限个信念状态可到达的POMDP)的基础。在所有此类决策过程中,使用马尔可夫抽象的代理可以依赖马尔可夫属性来实现最佳行为。本文证明了马尔可夫抽象可以在强化学习中学习。对于这两项任务,可以使用满足某些基本要求的任何算法。作者证明了当所采用的算法具有PAC保证时,本文的方法具有PAC保证,并且还提供了一个实验评估。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢