德克萨斯大学奥斯汀分校|部分信息下的任务引导逆强化学习

【标题】Task-Guided Inverse Reinforcement Learning Under Partial Information

【作者团队】Franck Djeumou, Murat Cubuktepe, Craig Lennon, Ufuk Topcu

【发表日期】2021.5.28

【论文链接】https://arxiv.org/pdf/2105.14073.pdf

【推荐理由】本文研究了逆强化学习 (IRL) 的问题，其中学习智能体使用专家演示来恢复奖励函数。大多数现有的 IRL 技术常常做出不切实际的假设，即智能体可以访问有关环境的完整信息。本文通过在部分可观察马尔可夫决策过程 (POMDP) 中开发 IRL 算法来消除这一假设，其中智能体无法直接观察 POMDP 的当前状态。该算法解决了现有技术的几个限制，这些限制没有考虑专家和智能体之间的信息不对称。首先，它采用因果熵作为专家演示可能性的度量，并避免了算法复杂性的常见来源。第二，它将时间逻辑中表达的任务规范合并到 IRL 中。除了演示之外，这种规范可以被解释为学习者先验可用的辅助信息，并且可以减少专家和智能体之间的信息不对称。本文通过顺序凸编程解决了非凸性问题，并引入了几种扩展以可扩展的方式解决前向问题。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

德克萨斯大学奥斯汀分校|部分信息下的任务引导逆强化学习

评论