Revisiting Reward Design and Evaluation for Robust Humanoid Standing and Walking

简介

人形机器人必备的能力之一是在面对自然干扰时仍然能够站立和行走。最近，使用模拟到真实的强化学习技术来训练此类运动控制器取得了一定进展，不同方法的区别主要在于它们的奖励函数。然而，之前的研究缺乏一种清晰的方法来系统地测试新的奖励函数，并通过可重复的实验比较控制器的性能。这限制了我们对不同方法之间权衡的理解，并阻碍了进展。为了解决这个问题，我们提出了一种低成本、定量的基准测试方法，以评估和比较在指令遵循、干扰恢复和能量效率等指标上的现实世界性能。我们还重新审视了奖励函数的设计，并构建了一个最小限制的奖励函数来训练站立和行走控制器。我们通过实验验证了我们的基准测试框架能够识别需要改进的方面，并可以系统地解决以增强策略。我们还将我们的新控制器与Digit人形机器人上的最先进的控制器进行了比较。结果清楚地显示了控制器之间的定量权衡，并提出了未来改进奖励函数和扩展基准测试的方向。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决人形机器人站立和行走时面对自然干扰的问题，并提出了一种低成本的定量基准测试方法，以评估和比较站立和行走控制器的实际性能。
关键思路

论文提出了一种最小限制的奖励函数来训练站立和行走控制器，并构建了一个基准测试框架来比较控制器的性能，包括命令跟随、干扰恢复和能量效率等指标。
其它亮点

论文的亮点包括提出了一种新的奖励函数、构建了一个低成本的基准测试框架、在Digit人形机器人上进行了实验验证，并与现有的控制器进行了比较。论文还提供了一些值得继续深入研究的方向。
相关研究

在这个领域中，最近的相关研究包括《Sim-to-Real Transfer of Robotic Control with Dynamics Randomization》和《Deep Reinforcement Learning for Vision-Based Locomotion Control of Soft Robots》等。

Revisiting Reward Design and Evaluation for Robust Humanoid Standing and Walking

提问交流

提问交流