- 简介许多机器人系统,例如移动机械臂或四旋翼无人机,由于空间、重量和功率的限制,无法配备高端GPU。这些限制阻碍了这些系统利用最近发展的视觉动作策略架构,这些架构需要高端GPU才能实现快速的策略推理。在本文中,我们提出了一种名为Consistency Policy的更快、同样强大的学习视觉动作机器人控制的替代Diffusion Policy的方法。由于其快速的推理速度,Consistency Policy可以在资源受限的机器人设置中实现低延迟的决策。Consistency Policy是从预训练的Diffusion Policy中通过强制沿着Diffusion Policy的学习轨迹进行自我一致性而提炼出来的。我们在6个仿真任务和两个真实世界的任务中将Consistency Policy与Diffusion Policy和其他相关的加速方法进行比较,在笔记本GPU上展示了推理过程。对于所有这些任务,与最快的替代方法相比,Consistency Policy将推理加速了一个数量级,并保持有竞争力的成功率。我们还展示了Consistency Policy训练过程对预训练的Diffusion Policy质量的鲁棒性,这是一个有用的结果,可以帮助从业人员避免对预训练模型进行广泛的测试。实现这种性能的关键设计决策是选择一致性目标、减少初始样本方差和选择预设的链接步骤。代码和训练细节将公开发布。
- 图表
- 解决问题论文旨在解决机器人视觉运动控制中GPU资源限制的问题,提出了一种快速且强大的替代方案。
- 关键思路文章提出的Consistency Policy是一种从预训练的Diffusion Policy中提取的、快速且同样强大的视觉运动策略,通过在Diffusion Policy的学习轨迹上强制自我一致性来进行蒸馏。
- 其它亮点文章通过6个模拟任务和两个真实任务的实验比较了Consistency Policy和其他相关的加速方法,结果显示Consistency Policy相比最快的替代方法加速了一个数量级,并且保持了竞争性的成功率。此外,文章还展示了Consistency Policy训练程序对预训练Diffusion Policy质量的鲁棒性,这有助于实践者避免对预训练模型进行大量测试。代码和训练细节将公开发布。
- 与此相关的最近研究包括:Learning to Learn without Forgetting for Continual Visual Recognition(CVPR 2020)、Learning to Learn with Feedback and Local Plasticity(NeurIPS 2020)等。
沙发等你来抢
去评论
评论
沙发等你来抢