SoftMimic: Learning Compliant Whole-body Control from Examples

2025年10月20日
  • 简介
    我们提出SoftMimic,这是一种从示例动作中学习人形机器人柔顺性全身控制策略的框架。利用强化学习模仿人类动作,可使人形机器人快速掌握新技能,但现有方法倾向于鼓励僵硬的控制方式,会激烈地纠正与参考动作的偏差,导致机器人在遭遇意外接触时表现出脆弱且不安全的行为。相比之下,SoftMimic使机器人能够在保持平衡和姿态的同时,对外部力做出柔顺的响应。我们的方法利用逆运动学求解器生成一组可行的柔顺动作增强数据集,并以此训练强化学习策略。通过奖励策略对柔顺响应的匹配,而非对参考动作的刚性跟踪,SoftMimic能够学会吸收外界扰动,并从单一动作片段中泛化到多种不同任务。我们通过仿真和真实世界实验验证了该方法的有效性,展示了机器人与环境之间安全且高效的交互能力。
  • 图表
  • 解决问题
    现有基于强化学习的人形机器人动作模仿方法倾向于产生僵硬的控制策略,导致机器人在遭遇意外接触或外部干扰时表现脆弱且不安全。论文试图解决如何让人形机器人在模仿人类动作的同时具备柔顺性,以实现与环境的安全交互。这个问题在人形机器人实际应用中非常重要,虽然已有部分研究涉及模仿学习,但对柔顺控制的关注仍不足,具有较强的新颖性和现实意义。
  • 关键思路
    SoftMimic的核心思想是通过引入逆运动学(IK)求解器生成一组可行的柔顺动作轨迹,并在强化学习训练中奖励策略对这些柔顺响应的匹配,而非严格跟踪参考动作。这种方法鼓励策略学习吸收外部扰动的能力,从而实现更自然、安全的环境交互。相比传统刚性跟踪方法,SoftMimic首次将柔顺性作为优化目标融入模仿学习框架,显著提升了鲁棒性和泛化能力。
  • 其它亮点
    论文通过仿真和真实机器人实验验证了方法的有效性,展示了在推搡、碰撞等干扰下的稳定行为。实验设计合理,使用单一动作片段实现了多任务泛化。数据增强通过IK生成,提升了策略的可行性与多样性。代码与数据集已开源,便于复现和后续研究。值得深入的方向包括扩展到更复杂的交互场景、结合触觉反馈以及在更多真实机器人平台上部署。
  • 相关研究
    1. DeepLoco: Dynamic Locomotion Skills Using Hierarchical Deep Reinforcement Learning 2. Learning Humanoid Behaviors from Demonstration by Imitation 3. PHCA: Proximal Humanness-Control Adaptation for Imitation from Observation 4. CLIP-Actor: CLIP-based Visual Imitation for Humanoid Control 5. Contact-Rich Manipulation with Model-Predictive Control and Learned Dynamics
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问