Multi-task Manipulation Policy Modeling with Visuomotor Latent Diffusion

2024年03月12日
  • 简介
    本文介绍了一种新的范式,有效利用操纵技能的潜在建模和高效的视觉动作潜在扩散策略,提高了现有跨体验和跨环境数据集的利用效率,从而提高了多任务能力。本文的方法包括两个解耦阶段:动作建模和策略建模。首先,我们介绍了一个任务不可知、具有体现感知的轨迹潜在自编码器,用于统一的动作技能建模。这一步将动作数据和观测结果压缩到一个简化的潜在空间中,有效利用了大规模的跨数据集。其次,我们提出使用视觉动作潜在扩散策略,从噪声中恢复目标技能潜在,以实现有效的任务执行。我们在两个广泛使用的基准测试上进行了大量实验,结果表明我们提出的范式在多任务和预训练方面的有效性。代码可在https://github.com/AlbertTan404/RoLD中找到。
  • 图表
  • 解决问题
    本论文旨在解决计算机视觉和机器人领域长期以来的一个问题:如何建立一个通用的视觉-动作策略,以提高多任务执行效率和应用能力?
  • 关键思路
    该论文提出了一种新的范式,通过操纵技能的潜在建模和有效的视觉-动作潜在扩散策略,有效利用现有的跨体验和跨环境数据集,从而提高多任务能力。
  • 其它亮点
    论文的方法包括两个解耦阶段:动作建模和策略建模。首先,引入一种任务不可知的、具有体现感知的轨迹潜在自编码器,用于统一动作技能建模。其次,提出使用视觉-动作潜在扩散策略,从噪声中恢复目标技能潜在,以实现有效的任务执行。论文在两个广泛使用的基准测试中进行了大量实验,结果表明了该方法在多任务和预训练方面的有效性。代码已开源。
  • 相关研究
    最近在这个领域中,有一些相关的研究,例如“Learning to Learn from Demonstrations Using Bayesian Optimization”,“Learning a Visuomotor Controller for Real-world Mobile Manipulation Using Deep Reinforcement Learning”,“Learning Latent Plans from Play”,等等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论