【标题】Learning Adaptable Policy via Meta-Adversarial Inverse Reinforcement Learning for Decision-making Tasks 【作者团队】Pin Wang, Hanhan Li, Ching-Yao Chan 【研究机构】加州大学伯克利分校 【发表时间】2021.3.23 【论文链接】原文链接 【推荐理由】本文提出了一个整合元学习和对抗性逆强化学习的框架(Meta-AIRL),该模型从演示中同时学习策略函数和奖励函数,并通过对鉴别器和生成器使用不同的更新频率和元学习速率,对有限数据样本下的新任务快速适应。该模型已被应用于自动驾驶领域中具有挑战性的决策任务。其能够在有限的演示条件下快速适应新任务,并取得与专家模型相当的满意结果。

在过去的几年里,从演示中学习已经取得了很大的进步。然而,它通常需要大量的数据和特定的任务。换句话说,它需要大量的数据来训练一个适合特定任务的模型,并且该模型通常不能推广到具有不同分布的新任务。在实践中,来自新任务的演示将被持续观察,数据可能未标记或仅部分标记。因此,训练好的模型需要适应数据样本有限的新任务。基于此,本文将元学习和对抗性逆强化学习(Meta-AIRL)相结合,建立了适应性模仿学习模型。在元学习框架下,利用对抗学习和逆强化学习机制,从现有的训练任务中同时学习策略和奖励功能,训练好的模型需要适应数据样本有限的新任务。仿真结果表明,利用Meta-AIRL训练的适应策略能够有效地从有限的演示中学习,并取得与专家模型相当的满意结果。 图1:元学习和对抗性逆强化学习(Meta-AIRL)算法

内容中包含的图片若涉及版权问题,请及时与我们联系删除