- 简介本文提出了一种方法,通过动态的、基于性能的调制学习信号,将强化学习(RL)和模仿学习(IL)相结合。该方法通过动态加权损失函数,将RL和行为克隆(IL)或行动空间的纠正反馈(交互式IL/IIL)相结合,考虑到反向传播梯度用于更新策略和代理的估计性能。通过这种方式,RL和IL/IIL损失函数被组合起来,使它们对策略更新产生相等的影响,同时调制这种影响,使IL信号在学习过程的开始阶段得到优先,随着代理的性能提高,RL信号变得越来越重要,从而实现从纯IL/IIL到纯RL的平稳过渡。该方法被用于学习移动机器人的局部规划策略,通过脚本化策略在线合成IL/IIL信号。在模拟环境中进行了广泛的评估,实验证明它在样本效率方面优于纯RL(在训练环境中使用大约4倍的经验达到相同的性能水平),同时始终产生更好的性能指标的局部规划策略(在评估环境中实现了0.959的平均成功率,比纯RL高出12.5%和纯IL高出13.9%)。此外,获得的局部规划策略在现实世界中成功部署,而无需进行任何重大的微调。该方法可以扩展现有的RL算法,并适用于其他可在线生成IL/IIL信号的问题。有关进行的一些真实世界实验的视频总结可以在https://youtu.be/mZlaXn9WGzw中找到。
- 图表
- 解决问题本文旨在提出一种方法,将强化学习(RL)和模仿学习(IL)相结合,使用动态的、基于性能的调节来调整学习信号。该方法通过动态加权优化损失函数,将RL和行为克隆(IL)或交互式IL/IIL(在行动空间中进行纠正反馈)相结合,考虑到反向传播梯度用于更新策略和代理的估计性能。因此,RL和IL/IIL损失通过平等化其对策略更新的影响进行组合,同时调节其影响,使IL信号在学习过程开始时优先考虑,随着代理的性能提高,RL信号变得越来越重要,从而实现从纯IL/IIL到纯RL的平稳转换。该方法用于学习移动机器人的本地规划策略,通过脚本策略在线合成IL/IIL信号。在模拟中对该方法在该任务上的应用进行了广泛评估,经验证明它在样本效率方面优于纯RL(在训练环境中使用大约4倍的经验获得相同的性能水平),同时始终产生具有更好性能指标的本地规划策略(在评估环境中实现平均成功率为0.959,比纯RL高出12.5%,比纯IL高出13.9%)。此外,所获得的本地规划策略成功地部署在现实世界中,无需进行任何重大的微调。
- 关键思路该方法通过动态加权优化损失函数,将RL和行为克隆(IL)或交互式IL/IIL相结合,考虑到反向传播梯度用于更新策略和代理的估计性能,从而实现从纯IL/IIL到纯RL的平稳转换。
- 其它亮点本文提出的方法在移动机器人本地规划任务中应用,通过在线合成IL/IIL信号,实现了从纯IL/IIL到纯RL的平稳转换。在广泛的模拟实验中,该方法在样本效率方面优于纯RL,并且始终产生具有更好性能指标的本地规划策略。此外,所获得的本地规划策略成功地部署在现实世界中,无需进行任何重大的微调。
- 近期的相关研究包括“Combining Reinforcement Learning and Imitation Learning for Vision-Based Autonomous Flight”和“Deep Reinforcement Learning with Double Q-learning for Autonomous Navigation”,这些研究都试图将RL和IL相结合来解决机器人控制问题。
沙发等你来抢
去评论
评论
沙发等你来抢