【标题】Misspecification in Inverse Reinforcement Learning

【作者团队】Joar Skalse, Alessandro Abate

【发表日期】2022.12.6

【论文链接】https://arxiv.org/pdf/2212.03201.pdf

【推荐理由】逆强化学习(IRL)的目的是从策略π推断奖励函数R。要做到这一点,我们需要一个π如何与R相关的模型。在当前的文献中,最常见的模型是最优性、玻尔兹曼合理性和因果熵最大化。IRL背后的主要动机之一是从人类行为中推断出人类的偏好。然而,人类偏好和人类行为之间的真实关系比目前在IRL中使用的任何模型都复杂得多。这意味着它们是错误的,这引发了人们的担忧,即如果将它们应用于真实世界数据,可能会导致不正确的推断。在本文中,作者对不同的IRL模型对错误指定的鲁棒性进行了数学分析,并准确地回答了在该模型导致关于奖励函数R的错误推断之前,演示者策略可能与每个标准模型有何不同,以及可用于容易地导出新IRL模型的误规范鲁棒性的正式工具。