Learning Prehensile Dexterity by Imitating and Emulating State-only Observations

2024年04月08日
  • 简介
    人类学习物理技能(例如学习打网球)时,通常会先观察并学习专家的动作,但这通常是不够的。因此,我们随后会进行练习,试图模仿专家。受此观察的启发,作者引入了Combining IMitation and Emulation for Motion Refinement(CIMER)——一种两阶段框架,可以从仅状态观察中学习灵巧的抓握操作技能。CIMER的第一阶段涉及模仿:同时在结构化动态系统中编码机器人手和物体的复杂相互运动。这导致了一种反应式运动生成策略,提供了合理的运动先验,但由于缺乏动作标签,缺乏关于接触效应的推理能力。第二阶段涉及仿真:学习运动细化策略,对机器人手的运动先验进行调整,以重新演示所需的物体运动。CIMER既是任务无关的(无需特定任务的奖励设计或塑造),也是无干预的(无需额外的遥操作或标记演示)。详细的实验表明:i)仅靠模仿是不够的,但是添加仿真会极大地提高性能;ii)在样本效率和生成逼真稳定运动能力方面,CIMER优于现有方法;iii)CIMER可以零-shot推广或从YCB数据集中学习适应新物体,甚至在大多数情况下优于使用动作标签训练的专家策略。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在通过两个阶段的框架CIMER,从仅有状态观测中学习灵巧的握取操作技能。第一阶段是模仿,第二阶段是模拟。这个问题是否是一个新问题?
  • 关键思路
    CIMER的关键思路是将机器手和物体的复杂相互作用编码为结构化动态系统,从而生成反应式运动生成策略。然后,学习一个运动细化策略,对机器手的运动先验进行调整,以实现所需的物体运动。相比目前领域内的研究,这篇论文的思路有何新意?
  • 其它亮点
    论文的亮点包括:CIMER是任务无关的,不需要特定的奖励设计或塑造,也不需要额外的遥控或标记演示。实验表明,仅仅使用模仿是不够的,但添加模拟可以极大地提高性能。CIMER在样本效率和生成逼真稳定动作的能力方面优于现有方法。CIMER可以从YCB数据集中零样本泛化或学习适应新物体,甚至在大多数情况下优于使用动作标签训练的专家策略。
  • 相关研究
    在这个领域中,最近还有一些相关的研究,如:Learning Dexterous In-Hand Manipulation,Learning to Grasp Objects with Multiple Contact Points using Contact Invariant Optimization,Learning Hand-Eye Coordination for Robotic Grasping with Large-Scale Data-Driven Simulations等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问