Agility Meets Stability: Versatile Humanoid Control with Heterogeneous Data

2025年11月21日
  • 简介
    人形机器人被期望能在以人类为中心的环境中执行各种各样的任务,这就要求控制器兼具敏捷性与稳定的平衡能力。近年来,在运动控制和全身动作跟踪方面取得的进展,已在灵活动态技能或对稳定性要求较高的行为上实现了显著突破;然而现有方法仍较为专一化,往往侧重于某一方面的能力而牺牲另一方面的表现。在本研究中,我们提出了AMS(Agility Meets Stability,敏捷与稳定融合),这是首个将动态动作跟踪与极限平衡维持统一于单一策略中的框架。我们的核心思路是利用异构的数据源:来自人类动作捕捉数据集的丰富且敏捷的行为数据,以及通过物理约束生成的、体现稳定姿态的合成平衡动作数据。为了协调敏捷性与稳定性之间不同的优化目标,我们设计了一种混合奖励机制,该机制对所有数据均施加通用的跟踪目标,同时仅针对合成动作引入特定于平衡的先验知识。此外,结合性能驱动的采样策略与针对不同动作的奖励塑形方法,我们的自适应学习机制能够高效地应对多样化的动作分布。我们在仿真环境和真实的Unitree G1人形机器人上对AMS进行了广泛验证。实验结果表明,单个策略即可完成跳舞、奔跑等敏捷动作,同时还能零样本执行如“叶问蹲”这类极端平衡动作,充分证明了AMS是一种面向未来人形机器人应用的通用控制范式。
  • 作者讲解·1
  • 图表
  • 解决问题
    论文旨在解决当前人形机器人控制中难以同时实现敏捷运动(如奔跑、跳舞)与强健平衡能力(如极端姿势保持)的问题。现有方法通常专注于其中一个方面,牺牲了另一方面的性能,导致控制器缺乏通用性。该问题在人形机器人领域具有重要现实意义,尽管已有相关研究,但尚未有效统一敏捷性与稳定性于单一策略中,因此是一个亟待突破的挑战。
  • 关键思路
    提出AMS(Agility Meets Stability)框架,首次将动态动作跟踪与极端平衡维持整合到一个统一策略中。核心思想是利用异构数据源:来自人类动捕数据的丰富敏捷行为,以及通过物理约束生成的合成平衡动作。通过设计混合奖励机制,在所有数据上使用通用跟踪目标,仅对合成平衡动作注入稳定性先验,并结合自适应学习策略(如表现驱动采样和动作特定奖励塑形),实现对多样化运动分布的有效训练。
  • 其它亮点
    实验在仿真环境和真实的Unitree G1人形机器人上广泛验证,证明单个策略可零样本执行Ip Man蹲等极端平衡动作,同时完成舞蹈、跑步等高敏捷任务。数据来源包括真实人类动捕数据与合成平衡轨迹,虽未明确提及代码开源,但其异构数据融合与自适应训练策略为后续研究提供了新方向,尤其值得深入探索其在更复杂任务中的泛化能力及迁移到其他机器人平台的可能性。
  • 相关研究
    1. Learning to Walk in Simulation with Progressive Networks 2. DeepLoco: Dynamic Locomotion Skills Using Hierarchical Neural Networks 3. Real-Time Human Motion Control with Deep Reinforcement Learning 4. Robust Recovery Controller for Humanoid Robots using Deep Reinforcement Learning 5. Motion Imitation with Asymmetric Actor-Critic Architecture 6. PHC: Proximal Policy Optimization with Human-in-the-loop Control for Bipedal Locomotion
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问