【标题】Task-Guided Inverse Reinforcement Learning Under Partial Information

【作者团队】Franck Djeumou, Murat Cubuktepe, Craig Lennon, Ufuk Topcu

【发表日期】2021.5.28

【论文链接】https://arxiv.org/pdf/2105.14073.pdf

【推荐理由】本文研究了逆强化学习 (IRL) 的问题,其中学习智能体使用专家演示来恢复奖励函数。大多数现有的 IRL 技术常常做出不切实际的假设,即智能体可以访问有关环境的完整信息。本文通过在部分可观察马尔可夫决策过程 (POMDP) 中开发 IRL 算法来消除这一假设,其中智能体无法直接观察 POMDP 的当前状态。该算法解决了现有技术的几个限制,这些限制没有考虑专家和智能体之间的信息不对称。首先,它采用因果熵作为专家演示可能性的度量,并避免了算法复杂性的常见来源。第二,它将时间逻辑中表达的任务规范合并到 IRL 中。除了演示之外,这种规范可以被解释为学习者先验可用的辅助信息,并且可以减少专家和智能体之间的信息不对称。本文通过顺序凸编程解决了非凸性问题,并引入了几种扩展以可扩展的方式解决前向问题。