【标题】A survey of inverse reinforcement learning(逆强化学习综述)
【作者团队】Stephen Adams, Tyler Cody, Peter A. Beling
【发表日期】2022.2.8
【论文链接】https://link.springer.com/content/pdf/10.1007/s10462-021-10108-x.pdf
【推荐理由】从示范中学习,或模仿学习,是从老师提供的例子中学习在环境中行动的过程。逆强化学习(IRL)是一种从演示中学习的特殊形式,它试图从老师提供的示例中估计马尔可夫决策过程的奖励函数。奖励函数通常被认为是对一项任务最简洁的描述。在简单的应用中,奖励函数可能是已知的,也可能很容易从系统的属性中导出,并硬编码到学习过程中。然而,在复杂的应用中,这可能是不可行的,而且通过观察教师的行为来学习奖励函数可能更容易。本文对IRL的相关文献进行了综述。这项调查概述了IRL和两种类似方法之间的差异——学徒学习和逆最优控制。此外,本调查根据主要方法组织了IRL文献,描述了IRL算法的应用,并提供了未来研究的领域。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢