【标题】Imitating, Fast and Slow: Robust learning from demonstrations via decision-time planning

【作者团队】Carl Qi, Pieter Abbeel, Aditya Grover

【发表日期】2022.4.7

【论文链接】https://arxiv.org/pdf/2204.03597.pdf

【推荐理由】模仿学习的目标是模仿演示中的专家行为,而无需获得明确的奖励信号。 一类流行的方法通过逆强化学习(IRL)推断(未知)奖励函数,然后通过强化学习(RL)最大化该奖励函数。 然而,通过这些方法学习的策略在实践中非常脆弱,即使由于复合错误而导致测试时间的小扰动也会迅速恶化。 本文提出了在测试时进行规划的模仿算法 (IMPLANT),这是一种用于模仿学习的算法,它利用决策时间规划来纠正任何基本模仿策略的复合错误。与现有方法相比,在决策时保留了模仿策略和奖励模型,从而受益于这两个组件的学习信号。 根据经验,本文证明 IMPLANT 在标准控制环境中显着优于基准模仿学习方法,并且在受到测试时间动态中具有挑战性的扰动时,在零样本泛化方面表现出色。

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除