瑞士 ANYbotics 公司的最新研究成果——《Learning quadrupedal locomotion over challenging terrain》登上了新一期《Science Robotics》的封面。

在这篇论文中,他们提出了一种稳健的控制器,可以部署到 ANYbotics 旗下多种机器人中。有了新型控制器的加持,这些机器人可以轻松翻越溪流、草地、雪地、碎石坡等富有挑战的场景。

该控制器仅使用联合编码器和惯性测量单元的本体感受(proprioceptive)度量,这是腿式机器人上最耐用最可靠的传感器。

这个控制器由一种神经网络策略驱动,在模拟环境中进行训练。虽然没有任何现实世界的数据和精确的地形模型,该控制器仍然能克服野外的各种不规则地形。无需用到摄像头、激光雷达或接触式传感器信息,只依赖本体感受传感器信号(proprioceptive sensor signal)来提高控制策略在不同地形中的适应性和稳健性。

在模型上,新方法没有使用在机器人当前状态的快照上运行的多层感知器(MLP),而是使用了序列模型,特别是感受状态的时间卷积网络(TCN)。新方法没有使用显式的接触和滑动预估模块,相反的 TCN 会根据需求从本体感受历史中隐式地推理出接触和滑动事件。

实现优化结果的第二个关键在于特权学习(privileged learning),研究人员发现直接通过强化学习训练出的越野运动策略并不成功:控制信号稀疏,并且所输出的网络无法在合理的时间内学习出正确的运动。新的模型在训练中分为两个阶段,首先训练教师策略,该策略可访问特权信息——真实情况(ground-truth)及机器人接触的情况,随后教师指导纯本体感受的学生控制器学习,后者仅使用机器人本身可用的传感器信息。

内容中包含的图片若涉及版权问题,请及时与我们联系删除