【标题】Curriculum Reinforcement Learning using Optimal Transport via Gradual Domain Adaptation

【作者团队】Peide Huang, Mengdi Xu, Jiacheng Zhu, Laixi Shi, Fei Fang, Ding Zhao

【发表日期】2022.10.18

【论文链接】https://arxiv.org/pdf/2210.10195.pdf

【推荐理由】课程强化学习(CRL)的目的是创建一个任务序列,从简单的任务开始,逐渐向困难的任务学习。本文专注于将CRL构建为源(辅助)和目标任务分布之间的插值的想法。尽管现有的研究显示了这一想法的巨大潜力,但如何正式量化和生成任务分布之间的移动仍然不清楚。受半监督学习中渐进式领域适应的启发,研究者通过将CRL中潜在的大型任务分布转变分解为较小的转变来创建一个自然课程。本文提出GRADIENT,它将CRL表述为一个最优传输问题,在任务之间有一个定制的距离指标。与许多现有的方法不同,此文的算法考虑了一个与任务相关的上下文距离度量,并且能够处理连续和离散上下文环境中的非参数分布。此外,本文在理论上表明,GRADIENT在某些条件下能够在课程的后续阶段之间顺利转移。