- 简介模仿学习使得自主智能体能够从人类示例中学习,无需奖励信号。然而,如果提供的数据集不能正确地概括任务,或者任务过于复杂而无法建模,则这种智能体无法复制专家策略。我们提出通过在线适应来从这些失败中恢复。我们的方法将预先训练的策略提出的动作与专家记录的相关经验相结合。这种组合产生了一个适应性动作,它紧密地跟随专家。我们的实验表明,适应的智能体比其纯模仿学习的对应物表现更好。值得注意的是,即使基础的非适应性策略发生灾难性失败,适应的智能体也能够达到合理的性能。
- 图表
- 解决问题如何通过在线自适应来解决纯模仿学习失败的问题?
- 关键思路将来自预训练策略的动作提案与专家记录的相关经验相结合,生成一个适应的动作,以更好地模仿专家。
- 其它亮点论文提出的在线自适应方法可以提高纯模仿学习的性能,即使基于非自适应策略的智能体出现灾难性失败,也可以实现合理的性能。实验表明,适应的智能体比其纯模仿学习的对应物表现更好。
- 与本文相关的研究包括基于模仿学习的深度强化学习、基于演示的学习、元强化学习等。
沙发等你来抢
去评论
评论
沙发等你来抢