【标题】Active Exploration for Inverse Reinforcement Learning

【作者团队】David Lindner, Andreas Krause, Giorgia Ramponi

【发表日期】2022.7.18

【论文链接】https://arxiv.org/pdf/2207.08645.pdf

【推荐理由】逆强化学习 (IRL) 是一种强大的范式,用于从专家演示中推断奖励函数。 许多 IRL 算法需要已知的转换模型,有时甚至需要已知的专家策略,或者它们至少需要访问生成模型。 然而,这些假设对于许多现实世界的应用程序来说太强了,在这些应用程序中,环境只能通过顺序交互来访问。 本文提出了一种新颖的 IRL 算法:逆强化学习的主动探索(AceIRL),它主动探索未知环境和专家策略,以快速学习专家的奖励函数并确定好的策略。 AceIRL 使用先前的观察来构建置信区间,以捕获合理的奖励函数并找到专注于环境中信息量最大的区域的探索策略。 AceIRL 是第一种具有样本复杂性边界的主动 IRL 方法,不需要环境的生成模型。此外,本文建立了一个与问题相关的界限,将 AceIRL 的样本复杂性与给定 IRL 问题的次优差距联系起来。