卡内基梅隆大学|通过渐进域适应使用最优传输的课程强化学习

【标题】Curriculum Reinforcement Learning using Optimal Transport via Gradual Domain Adaptation

【作者团队】Peide Huang, Mengdi Xu, Jiacheng Zhu, Laixi Shi, Fei Fang, Ding Zhao

【发表日期】2022.10.18

【论文链接】https://arxiv.org/pdf/2210.10195.pdf

【推荐理由】课程强化学习（CRL）的目的是创建一个任务序列，从简单的任务开始，逐渐向困难的任务学习。本文专注于将CRL构建为源（辅助）和目标任务分布之间的插值的想法。尽管现有的研究显示了这一想法的巨大潜力，但如何正式量化和生成任务分布之间的移动仍然不清楚。受半监督学习中渐进式领域适应的启发，研究者通过将CRL中潜在的大型任务分布转变分解为较小的转变来创建一个自然课程。本文提出GRADIENT，它将CRL表述为一个最优传输问题，在任务之间有一个定制的距离指标。与许多现有的方法不同，此文的算法考虑了一个与任务相关的上下文距离度量，并且能够处理连续和离散上下文环境中的非参数分布。此外，本文在理论上表明，GRADIENT在某些条件下能够在课程的后续阶段之间顺利转移。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

卡内基梅隆大学|通过渐进域适应使用最优传输的课程强化学习

评论