ViTa-Zero: Zero-shot Visuotactile Object 6D Pose Estimation

2025年04月17日
  • 简介
    物体的6D姿态估计是机器人技术中的一个关键挑战,尤其是在操作任务中。尽管之前结合视觉和触觉(visuotactile)信息的研究展现出潜力,但由于visuotactile数据的有限性,这些方法在泛化能力上往往面临困难。在本文中,我们提出了ViTa-Zero,一种零样本visuotactile姿态估计框架。我们的核心创新点在于利用视觉模型作为主干网络,并基于从触觉和本体感觉观测中提取的物理约束进行可行性检查和测试时优化。具体而言,我们将夹爪与物体的交互建模为一个弹簧-质量系统,其中触觉传感器产生吸引力,而本体感觉生成排斥力。我们通过在真实机器人平台上进行实验验证了该框架的有效性,展示了其在代表性视觉主干网络和多种操作场景中的表现,包括抓取、物体拾取和双臂交接任务。与纯视觉模型相比,我们的方法在跟踪手中物体姿态时克服了一些严重的失败模式。在实验中,我们的方法在ADD-S指标上的AUC平均提高了55%,在ADD指标上提高了60%,并且相较于FoundationPose方法,位置误差降低了80%。
  • 图表
  • 解决问题
    论文试图解决物体6D姿态估计在机器人操作任务中的挑战,特别是在缺乏足够的视触觉数据时的泛化问题。这是一个持续的研究问题,但该论文专注于零样本(zero-shot)情况下的解决方案。
  • 关键思路
    论文提出了一种名为ViTa-Zero的框架,其核心思想是利用视觉模型作为主干网络,并结合触觉和本体感受信息进行可行性检查和测试时优化。创新点在于将夹爪与物体的交互建模为弹簧-质量系统,其中触觉传感器产生吸引力,而本体感受生成排斥力,从而通过物理约束改进姿态估计。
  • 其它亮点
    实验结果表明,与仅使用视觉模型相比,ViTa-Zero在ADD-S和ADD指标上分别提高了55%和60%,位置误差降低了80%。此外,该方法在多种真实世界场景中表现出色,包括抓取、物体拾取和双臂交接任务。论文未提及是否开源代码,但强调了跨不同视觉主干模型的有效性,为进一步研究提供了方向,例如更复杂的交互场景或更大规模的数据集验证。
  • 相关研究
    相关研究包括:1) 视觉主导的姿态估计方法(如DeepIM、PoseRBPF);2) 触觉增强的机器人操作研究(如TACTO、GelSight);3) 物理约束驱动的优化方法(如FoundationPose)。其他相关工作还包括《Learning to Manipulate with Visuo-Tactile Feedback》和《Physics-Guided Neural Networks for Pose Estimation》等论文。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论