Reactive Diffusion Policy: Slow-Fast Visual-Tactile Policy Learning for Contact-Rich Manipulation

2025年03月04日
  • 简介
    人类能够利用视觉和触觉完成复杂的接触丰富的任务,具备高度反应能力,如快速适应环境变化和自适应控制接触力;然而,这对机器人来说仍然具有挑战性。现有的视觉模仿学习(IL)方法依赖于动作分块来建模复杂行为,这缺乏在执行分块过程中对实时触觉反馈即时响应的能力。此外,大多数远程操作系统难以提供精细的触觉/力反馈,这限制了可执行任务的范围。为了解决这些挑战,我们引入了TactAR,这是一种低成本的远程操作系统,通过增强现实(AR)提供实时触觉反馈,以及一种新颖的慢-快视觉触觉模仿学习算法——反应扩散策略(RDP),用于学习接触丰富的操作技能。RDP采用两级层次结构:(1)低频预测潜在空间中高层次动作分块的慢速潜在扩散策略;(2)高频闭环触觉反馈控制的快速非对称编码器。这种设计使得在一个统一的框架内既能建模复杂轨迹又能实现快速反应行为。通过在三个具有挑战性的接触丰富任务上的广泛评估,与最先进的视觉IL基线相比,RDP通过快速响应触觉/力反馈显著提高了性能。此外,实验表明RDP适用于不同的触觉/力传感器。代码和视频可在https://reactive-diffusion-policy.github.io/获取。
  • 图表
  • 解决问题
    论文试图解决机器人在执行复杂接触丰富的任务时,难以像人类一样通过视觉和触觉即时调整行为的问题。现有的视觉模仿学习方法依赖于动作分块,缺乏对实时触觉反馈的快速响应能力,而大多数远程操作系统也无法提供精细的触觉/力反馈,限制了可执行任务的范围。这是一个需要进一步研究和改进的问题。
  • 关键思路
    关键思路是引入TactAR系统和Reactive Diffusion Policy (RDP)算法。TactAR是一个低成本的远程操作系统,通过增强现实(AR)提供实时触觉反馈。RDP则是一种新颖的慢-快视觉-触觉模仿学习算法,采用两层结构:1)低频的慢速潜在扩散策略用于预测高层次的动作分块;2)高频的快速非对称编码器用于闭环触觉反馈控制。这种设计使得机器人能够在统一框架内实现复杂的轨迹建模和快速反应行为。
  • 其它亮点
    该研究通过三个具有挑战性的接触丰富任务进行了广泛评估,结果显示RDP相比最先进的视觉模仿学习基线显著提高了性能,特别是在快速响应触觉/力反馈方面。此外,实验表明RDP适用于不同的触觉/力传感器,增加了其通用性。研究还提供了代码和视频资源,方便后续研究者复现结果并进行深入研究。
  • 相关研究
    最近在这个领域中,还有其他相关研究如《Learning Dexterous In-Hand Manipulation》、《Teleoperation with Haptic Feedback for Robotic Surgery》、《Deep Learning for Tactile Sensing in Robotics》等。这些研究分别探讨了灵巧的手部操作、带有触觉反馈的手术机器人远程操作以及基于深度学习的机器人触觉感知。
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论