Learning Agile Locomotion on Risky Terrains

简介

四足机器人通过强化学习在各种地形上展现了卓越的机动性。然而，在存在稀疏支撑和风险地形（如跳石和平衡木）的情况下，需要精确的脚部放置来避免跌倒，通常使用基于模型的方法。在本文中，我们展示了端到端的强化学习也可以使机器人通过动态运动穿越风险地形。为此，我们的方法是在杂乱和稀疏的跳石上训练一个敏捷运动的通用策略，然后通过从中微调专家策略，将其可重用的知识转移到各种更具挑战性的地形上。鉴于机器人需要快速适应这些地形上的速度，我们将任务定义为导航任务，而不是常用的速度跟踪，这会限制机器人的行为，并提出了一种探索策略，以克服稀疏的奖励并实现高鲁棒性。我们通过模拟和在ANYmal-D机器人上的实际实验验证了我们提出的方法，实现了在稀疏跳石和狭窄平衡木上达到>=2.5 m/s的最高前进速度。视频链接：youtu.be/Z5X0J8OH6z4。
图表
解决问题

论文试图通过使用强化学习方法解决四足机器人在稀疏支撑和风险地形上的移动问题。这是否是一个新问题？
关键思路

论文的关键思路是使用端到端强化学习训练一个通用的策略来解决不规则和稀疏的支撑上的敏捷运动，然后通过从通用策略微调专家策略来将可重用的知识转移到各种更具挑战性的地形中。这个思路相比当前领域的研究有什么新意？
其它亮点

论文的亮点包括使用导航任务而不是常用的速度跟踪来快速适应机器人在这些地形上的速度，提出了一种探索策略来克服稀疏奖励并实现高鲁棒性。论文在ANYmal-D机器人上进行了仿真和实际实验，并在稀疏支撑石和狭窄平衡梁上实现了峰值前进速度> = 2.5 m / s。视频：youtu.be/Z5X0J8OH6z4
相关研究

最近在这个领域中，也有其他一些相关的研究，例如：1. “Learning to Move in Dynamic Environments using Deep Reinforcement Learning”；2. “Robust Locomotion of a Quadruped Robot with Reinforcement Learning”；3. “End-to-End Learning of Locomotion Using Deep Neural Networks for Quadruped Robots”等。

Learning Agile Locomotion on Risky Terrains

评论