Unifying Scene Representation and Hand-Eye Calibration with 3D Foundation Models

2024年04月17日
  • 简介
    在机器人技术中,表征环境是一个核心难题,对于有效的决策至关重要。传统上,在使用机械臂安装的相机捕获图像之前,用户需要使用特定的外部标记(例如棋盘或AprilTag)对相机进行校准。然而,最近计算机视觉的进展导致了3D基础模型的开发。这些是大型、预训练的神经网络,可以在很少的图像情况下建立快速准确的多视图对应,即使在缺乏丰富视觉特征的情况下也能做到。本文提倡将3D基础模型整合到具有机械臂安装的RGB相机的场景表征方法中。具体来说,我们提出了联合校准和表征(JCR)方法。JCR使用被机械臂安装的相机捕获的RGB图像,在没有特定校准标记的情况下,同时构建环境表征和相机与机器人末端执行器的校准。所得到的3D环境表征与机器人的坐标系对齐,并保持物理上准确的尺度。我们证明,JCR可以使用低成本的RGB相机构建有效的场景表征,而无需事先进行校准。
  • 图表
  • 解决问题
    论文提出了一种使用3D基础模型进行环境表示和相机标定的方法,以解决机器人决策中的环境表示问题。该方法可以在没有特定标定标记的情况下,使用机械臂安装的RGB相机捕获的图像来建立物理上准确的环境表示。
  • 关键思路
    论文提出了Joint Calibration and Representation (JCR)方法,该方法使用3D基础模型对机械臂安装的RGB相机进行标定,并同时构建环境表示。该方法在不需要特定标定标记的情况下,能够使用少量图像建立准确的环境表示。
  • 其它亮点
    论文通过实验验证了JCR方法的有效性,并展示了使用低成本的RGB相机进行环境表示的能力。论文使用了多个数据集进行实验,并与其他方法进行了比较。此外,论文还提供了开源代码。
  • 相关研究
    在相关研究方面,最近的一些研究集中于使用深度学习方法进行环境表示和相机标定。例如,一些研究使用卷积神经网络进行相机标定,而另一些研究使用生成对抗网络进行环境表示。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论