哥伦比亚大学|ASPiRe：强化学习的自适应技能先验

【标题】ASPiRe:Adaptive Skill Priors for Reinforcement Learning

【作者团队】Mengda Xu, Manuela Veloso, Shuran Song

【发表日期】2022.9.30

【论文链接】https://arxiv.org/pdf/2209.15205.pdf

【推荐理由】本文提出了 ASPiRe（RL 的自适应技能先验），一种利用先前经验加速强化学习的新方法。与从庞大且多样化的数据集中学习单一技能先验的现有方法不同，本文的框架从一组专门的数据集中学习不同区分技能先验（即行为先验）的库，并学习如何将它们结合起来解决新任务。该概念允许算法获得一组更可重用于下游任务的专业技能先验；然而，它也带来了额外的挑战，即如何有效地结合这些非结构化的技能先验集，为新任务形成新的先验知识。具体来说，它要求智能体不仅要确定要使用哪种技能先验，还要确定如何将它们组合（顺序或同时）以形成新的先验。为了实现这一目标，ASPiRe 包含自适应权重模块 (AWM)，该模块学习推断不同技能先验之间的自适应权重分配，并使用它们通过加权 Kullback-Leibler 散度指导下游任务的策略学习。

哥伦比亚大学|ASPiRe：强化学习的自适应技能先验

评论