【标题】Verifiable and Compositional Reinforcement Learning Systems

【作者团队】Cyrus Neary, Christos Verginis, Murat Cubuktepe, Ufuk Topcu

【发表日期】2022.6.7

【论文链接】https://arxiv.org/pdf/2106.05864.pdf

【推荐理由】本文提出了一个用于可验证和组合强化学习 (RL) 的新框架,其中一组 RL 子系统,每个子系统都学习完成一个单独的子任务,以实现整体任务。该框架由一个高级模型组成,表示为参数马尔可夫决策过程 (pMDP),用于规划和分析子系统的组成,以及低级子系统本身的集合。通过定义子系统之间的接口,该框架实现了任务规范的自动分解,例如,以至少 0.95 的概率达到目标状态集,到单独的子任务规范中,即实现子系统的退出条件鉴于满足其进入条件,至少有一些最小概率。这反过来又允许对子系统进行独立的培训和测试;如果他们每个人都学习了满足适当子任务规范的策略,那么他们的组合就可以保证满足整个任务规范。相反,如果学习策略不能完全满足子任务规范,本文提出一种方法,公式化为在 pMDP 中找到一组最佳参数的问题,以自动更新子任务规范以说明观察到的缺点。结果是定义子任务规范和训练子系统以满足它们的迭代过程。作为一个额外的好处,这个过程允许在训练期间自动确定和关注整个任务中特别具有挑战性或重要的组成部分。