【标题】ASPiRe:Adaptive Skill Priors for Reinforcement Learning

【作者团队】Mengda Xu, Manuela Veloso, Shuran Song

【发表日期】2022.9.30

【论文链接】https://arxiv.org/pdf/2209.15205.pdf

【推荐理由】本文提出了 ASPiRe(RL 的自适应技能先验),一种利用先前经验加速强化学习的新方法。与从庞大且多样化的数据集中学习单一技能先验的现有方法不同,本文的框架从一组专门的数据集中学习不同区分技能先验(即行为先验)的库,并学习如何将它们结合起来解决新任务。 该概念允许算法获得一组更可重用于下游任务的专业技能先验;然而,它也带来了额外的挑战,即如何有效地结合这些非结构化的技能先验集,为新任务形成新的先验知识。具体来说,它要求智能体不仅要确定要使用哪种技能先验,还要确定如何将它们组合(顺序或同时)以形成新的先验。为了实现这一目标,ASPiRe 包含自适应权重模块 (AWM),该模块学习推断不同技能先验之间的自适应权重分配,并使用它们通过加权 Kullback-Leibler 散度指导下游任务的策略学习。