标题:ICLR 23 Submission (6.33)| Causal Imitation Learning via Inverse Reinforcement Learning|通过逆向强化学习进行因果模仿学习
 
简介:在不熟悉环境的情况下,儿童最常见的学习方式之一是通过模仿成人。模仿学习是指模仿者从专家的示范中学习在未知环境中的行为;奖励信号对模仿者来说仍然是潜在的。本文通过因果透镜研究模仿学习,并将为行为克隆开发的分析和工具(Zhang, Kumor, Bareinboim, 2020)扩展到反强化学习。首先,我们提出了新的图形条件,允许模仿者学习一个与专家的行为政策一样好的政策,即使是在模仿者和专家的状态行动空间不一致,并且存在未观察到的混杂因素(UCs)的情况下。当提供关于未知奖励函数的参数化知识时,这样的政策可能会优于专家的政策。另外,我们的方法很容易扩展,即使在存在UC的情况下,也可以利用现有的IRL算法,包括乘法权重算法(MWAL)(Syed & Schapire, 2008)和生成对抗性模仿学习(GAIL)(Ho & Ermon, 2016)。最后,我们通过使用真实世界和合成数据进行模拟来验证我们的框架。
 

内容中包含的图片若涉及版权问题,请及时与我们联系删除