Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation

简介

许多机器人系统，例如移动机械臂或四旋翼无人机，由于空间、重量和功率的限制，无法配备高端GPU。这些限制阻碍了这些系统利用最近发展的视觉动作策略架构，这些架构需要高端GPU才能实现快速的策略推理。在本文中，我们提出了一种名为Consistency Policy的更快、同样强大的学习视觉动作机器人控制的替代Diffusion Policy的方法。由于其快速的推理速度，Consistency Policy可以在资源受限的机器人设置中实现低延迟的决策。Consistency Policy是从预训练的Diffusion Policy中通过强制沿着Diffusion Policy的学习轨迹进行自我一致性而提炼出来的。我们在6个仿真任务和两个真实世界的任务中将Consistency Policy与Diffusion Policy和其他相关的加速方法进行比较，在笔记本GPU上展示了推理过程。对于所有这些任务，与最快的替代方法相比，Consistency Policy将推理加速了一个数量级，并保持有竞争力的成功率。我们还展示了Consistency Policy训练过程对预训练的Diffusion Policy质量的鲁棒性，这是一个有用的结果，可以帮助从业人员避免对预训练模型进行广泛的测试。实现这种性能的关键设计决策是选择一致性目标、减少初始样本方差和选择预设的链接步骤。代码和训练细节将公开发布。
图表
解决问题

论文旨在解决机器人视觉运动控制中GPU资源限制的问题，提出了一种快速且强大的替代方案。
关键思路

文章提出的Consistency Policy是一种从预训练的Diffusion Policy中提取的、快速且同样强大的视觉运动策略，通过在Diffusion Policy的学习轨迹上强制自我一致性来进行蒸馏。
其它亮点

文章通过6个模拟任务和两个真实任务的实验比较了Consistency Policy和其他相关的加速方法，结果显示Consistency Policy相比最快的替代方法加速了一个数量级，并且保持了竞争性的成功率。此外，文章还展示了Consistency Policy训练程序对预训练Diffusion Policy质量的鲁棒性，这有助于实践者避免对预训练模型进行大量测试。代码和训练细节将公开发布。
相关研究

与此相关的最近研究包括：Learning to Learn without Forgetting for Continual Visual Recognition（CVPR 2020）、Learning to Learn with Feedback and Local Plasticity（NeurIPS 2020）等。

Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation

评论