【标题】Radboud University | 基于有限状态控制器的POMDP安全策略改进

【作者团队】Thiago D. Simao,  Marnix Suilen, Nils Jansen

【发表日期】12 January, 2023

【论文链接】https://arxiv.org/pdf/2301.04939.pdf

【推荐理由】

论文研究了部分可观察马尔可夫决策过程(POMDP)的安全策略改进(SPI)。SPI是一个离线强化学习(RL)问题,它假设访问(1)关于环境的历史数据,以及(2)先前通过与环境交互生成该数据的所谓行为策略。SPI方法既不需要访问模型也不需要访问环境本身,其目的是以离线方式可靠地改进行为策略。现有方法强烈假设环境是完全可观察的。在针对POMDP的SPI问题的新方法中,本文假设有限状态控制器(FSC)表示行为策略,并且有限内存足以导出最优策略。这个假设允许将POMDP映射到有限状态完全可观察的MDP,即历史MDP。论文通过结合历史数据和FSC的内存来估计这个MDP,并使用现成的SPI算法来计算改进的策略。底层SPI方法根据可用数据约束策略空间,使得新计算的策略仅在足够数据可用时与行为策略不同。我们表明,这一新策略,转化为(未知)POMDP的新FSC,以高概率优于行为策略。在几个成熟的基准测试上的实验结果表明了该方法的适用性,即使在有限内存不足的情况下也是如此