- 简介由于数据驱动学习方法最近的爆炸性发展,强化学习(RL)成为解决机器人腿部运动问题的有前途的解决方案。在本文中,我们提出了一种新颖的并发教师-学生强化学习架构,用于基于真实世界部署中的本体感知测量的足式运动,面对具有挑战性的地形。与传统的教师-学生架构不同,该架构通过强化学习范式同时训练教师和学生策略网络,而不是通过强化学习训练教师策略并通过监督学习将知识转移给学生策略。为了实现这一目标,我们开发了一种基于传统的近端策略梯度(PPO)方法的新训练方案,以适应教师策略网络和学生策略网络之间的交互。通过在四足机器人和点脚双足机器人上进行广泛的室内和室外实验,展示了所提出的架构以及新的训练方案的有效性,展示了在具有挑战性的地形上的强健运动和比两阶段训练方法提高的性能。
- 图表
- 解决问题本文旨在解决机器人在复杂地形上的四足和双足行走问题,提出了一种基于强化学习的并发教师-学生架构。
- 关键思路与传统的教师-学生架构不同,本文提出的架构通过并发训练教师策略网络和学生策略网络来解决问题,使用基于传统 PPO 方法的新训练方案来实现两者之间的交互。
- 其它亮点通过在四足和双足机器人上进行室内和室外实验,展示了该架构的有效性和新训练方案相比于传统的两阶段训练方法的改进性能。值得关注的是,该方法仅基于机器人的本体感知测量数据。
- 在这个领域中,最近的相关研究包括使用深度学习方法解决机器人行走问题的研究,如《Deep Reinforcement Learning for Robotic Locomotion: A Review》和《Robust Bipedal Locomotion Control with Deep Reinforcement Learning》。
沙发等你来抢
去评论
评论
沙发等你来抢