[Google DeepMind]RoboTAP: Tracking Arbitrary Points for Few-Shot Visual Imitation

Mel Vecerik, Carl Doersch, Yi Yang, Todor Davchev, Yusuf Aytar, Guangyao Zhou, Raia Hadsell, Lourdes Agapito, Jon Scholz

RoboTAP:面向少样本视觉模仿的任意点追踪

  • 提出RoboTAP,一种从极少量示例(仅4-6个)快速教机器人新操纵技能的方法,不需要针对特定任务的工程设计或大量的数据。

  • RoboTAP利用稠密跟踪模型比如TAPIR来隔离和参数化从示例中提取的相关运动,使其能从仅仅4-6个示例中捕获具有长时间跨度的复杂行为。

  • 将操纵分解为3个操作:识别相关点,定位它们,以及移动它们到期望的位置,这些都是通过视觉显著性、时间对齐和视觉伺服来实现的。

  • 一个核心组件是一个通用的视觉伺服控制器,可以将任意点集与目标位置对齐,以实现精确的物体重排。

  • RoboTAP可以在没有动作标签或预训练的情况下,从极少量的示例中自动提取运动、相关点和目标,可以轻松地泛化到新的场景和物体上。

  • 可以解决精确物体放置、高间隙插入、形状匹配、堆叠等任务,以及像粘合物体等复杂顺序行为。

  • 在9个真实机器人任务上进行了评估,表明它可以从几分钟的交互中获得可靠的性能,在杂物和遮挡存在下性能会稳定下降。

  • 贡献包括RoboTAP的公式化、其核心组件的实现、一个机器人稠密跟踪数据集,以及对其能力的经验表征。

  • 限制包括仅依赖视觉输入,没有重新规划,以及在亚5mm任务上的困难,将其与大型模型结合可能实现更通用的技能。

动机:当前的方法要么缺乏普适性,需要特定的工程设计来教导机器人新的行为;要么缺乏数据效率,需要耗费大量时间进行训练。本文旨在探索使用密集跟踪作为感知工具,以实现更快速和更普适的从示例中学习。
方法:采用Track-Any-Point(TAP)模型来分离示例中的相关运动,并参数化一个低层控制器来在场景变化中复现这种运动。通过密集跟踪,解决了识别何处有关动作、如何移动以及在哪里移动的问题。
优势:RoboTAP能在几分钟内从少量示例中学习解决复杂的物体排列任务,如形状匹配、堆叠以及全路径跟随任务。RoboTAP不需要大规模数据收集,可以轻松地推广到杂乱环境和物体姿态随机化的情况下。

提出一种使用密集跟踪的方法,在从示例中学习机器人行为方面具有快速、普适且数据效率高的优势。

https://arxiv.org/abs/2308.15975 


图片图片图片

内容中包含的图片若涉及版权问题,请及时与我们联系删除