Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation

2024年05月13日
  • 简介
    许多机器人系统,例如移动机械臂或四旋翼无人机,由于空间、重量和功率的限制,无法配备高端GPU。这些限制阻碍了这些系统利用最近发展的视觉动作策略架构,这些架构需要高端GPU才能实现快速的策略推理。在本文中,我们提出了一种名为Consistency Policy的更快、同样强大的学习视觉动作机器人控制的替代Diffusion Policy的方法。由于其快速的推理速度,Consistency Policy可以在资源受限的机器人设置中实现低延迟的决策。Consistency Policy是从预训练的Diffusion Policy中通过强制沿着Diffusion Policy的学习轨迹进行自我一致性而提炼出来的。我们在6个仿真任务和两个真实世界的任务中将Consistency Policy与Diffusion Policy和其他相关的加速方法进行比较,在笔记本GPU上展示了推理过程。对于所有这些任务,与最快的替代方法相比,Consistency Policy将推理加速了一个数量级,并保持有竞争力的成功率。我们还展示了Consistency Policy训练过程对预训练的Diffusion Policy质量的鲁棒性,这是一个有用的结果,可以帮助从业人员避免对预训练模型进行广泛的测试。实现这种性能的关键设计决策是选择一致性目标、减少初始样本方差和选择预设的链接步骤。代码和训练细节将公开发布。
  • 图表
  • 解决问题
    论文旨在解决机器人视觉运动控制中GPU资源限制的问题,提出了一种快速且强大的替代方案。
  • 关键思路
    文章提出的Consistency Policy是一种从预训练的Diffusion Policy中提取的、快速且同样强大的视觉运动策略,通过在Diffusion Policy的学习轨迹上强制自我一致性来进行蒸馏。
  • 其它亮点
    文章通过6个模拟任务和两个真实任务的实验比较了Consistency Policy和其他相关的加速方法,结果显示Consistency Policy相比最快的替代方法加速了一个数量级,并且保持了竞争性的成功率。此外,文章还展示了Consistency Policy训练程序对预训练Diffusion Policy质量的鲁棒性,这有助于实践者避免对预训练模型进行大量测试。代码和训练细节将公开发布。
  • 相关研究
    与此相关的最近研究包括:Learning to Learn without Forgetting for Continual Visual Recognition(CVPR 2020)、Learning to Learn with Feedback and Local Plasticity(NeurIPS 2020)等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论