Radboud University | 基于有限状态控制器的POMDP安全策略改进

【标题】Radboud University | 基于有限状态控制器的POMDP安全策略改进

【作者团队】Thiago D. Simao, Marnix Suilen, Nils Jansen

【发表日期】12 January, 2023

【论文链接】https://arxiv.org/pdf/2301.04939.pdf

【推荐理由】

论文研究了部分可观察马尔可夫决策过程（POMDP）的安全策略改进（SPI）。SPI是一个离线强化学习（RL）问题，它假设访问（1）关于环境的历史数据，以及（2）先前通过与环境交互生成该数据的所谓行为策略。SPI方法既不需要访问模型也不需要访问环境本身，其目的是以离线方式可靠地改进行为策略。现有方法强烈假设环境是完全可观察的。在针对POMDP的SPI问题的新方法中，本文假设有限状态控制器（FSC）表示行为策略，并且有限内存足以导出最优策略。这个假设允许将POMDP映射到有限状态完全可观察的MDP，即历史MDP。论文通过结合历史数据和FSC的内存来估计这个MDP，并使用现成的SPI算法来计算改进的策略。底层SPI方法根据可用数据约束策略空间，使得新计算的策略仅在足够数据可用时与行为策略不同。我们表明，这一新策略，转化为（未知）POMDP的新FSC，以高概率优于行为策略。在几个成熟的基准测试上的实验结果表明了该方法的适用性，即使在有限内存不足的情况下也是如此。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

Radboud University | 基于有限状态控制器的POMDP安全策略改进

评论