德州农工大学|在稀疏奖励环境中使用演示增强元强化学习

【标题】Enhanced Meta Reinforcement Learning using Demonstrations in Sparse Reward Environments

【作者团队】Desik Rengarajan, Sapana Chaudhary, Jaewon Kim, Dileep Kalathil, Srinivas Shakkottai

【发表日期】2020.9.26

【论文链接】https://arxiv.org/pdf/2209.13048.pdf

【推荐理由】元强化学习 (Meta-RL) 是一种从解决各种任务中获得的经验被提炼成元策略的方法。元策略只经过少量（或单一）步骤的调整，就能够在新的相关任务上接近最佳地执行。然而，采用这种方法来解决现实世界问题的一个主要挑战是它们通常与稀疏奖励函数相关联，这些奖励函数只表明一个任务是部分还是全部完成。本文考虑的情况是，每个任务都有一些数据，可能是由一个次优智能体产生的。然后，此文开发了一类名为“使用演示增强元强化学习”（EMRLD）的算法，利用这些信息，即使是次优的，也能在训练中获得指导。文中展示了 EMRLD 如何在离线数据上联合利用RL和监督学习来产生一个展示单调性能改进的元策略的。文中展示 EMRLD 算法在各种稀疏奖励环境（包括移动机器人）中的表现明显优于现有方法。

德州农工大学|在稀疏奖励环境中使用演示增强元强化学习

评论