【论文标题】基于迁移学习的元强化学习自主导航多机器人路径规划算法A multi-robot path-planning algorithm for autonomous navigation using meta-reinforcement learning based on transfer learning

【作者团队】Shuhuan Wen, Zeteng Wen, Di Zhang, Hong Zhang, Tao Wang

【发表时间】 2021-06-21

【论文链接】https://www.sciencedirect.com/science/article/pii/S1568494621005263

【推荐理由】多机器人系统在复杂环境中的适应性是一个热门话题。针对复杂环境中的静态和动态障碍,本文提出了动态近端元策略优化与协方差矩阵自适应进化策略(dynamic-PMPO-CMA),以避开障碍并实现自主导航。首先,文章在原始近端策略优化(PPO)的基础上提出动态近端策略优化协方差矩阵自适应进化策略(dynamic-PPO-CMA),以获得有效的避障策略。仿真结果表明,所提出的动态PPO-CMA可以避开障碍物并成功到达指定的目标位置。其次,为了提高多机器人系统在不同环境下的适应性,文章将元学习与动态 PPO-CMA 相结合,形成动态 PMPO-CMA 算法。在训练过程中,使用提出的 dynamic-PMPO-CMA 来训练机器人学习多任务策略。最后,在测试过程中,将迁移学习引入到所提出的动态-PMPO-CMA 算法中。元策略的训练参数被转移到新环境并被视为初始参数。仿真结果表明,与PPO、PMPO和动态PPO-CMA算法相比,该算法具有更快的收敛速度和更快的到达目的地速度。

内容中包含的图片若涉及版权问题,请及时与我们联系删除