RoCap: A Robotic Data Collection Pipeline for the Pose Estimation of Appearance-Changing Objects

2024年07月10日
  • 简介
    物体姿态估计在混合现实交互中扮演着重要角色,当用户使用有形物体作为控制器时。传统的基于视觉的物体姿态估计方法利用3D重建来合成训练数据。然而,这些方法设计用于静态物体,具有漫反射颜色,对于在操作过程中改变外观的物体(如可变形物体,如毛绒玩具,透明物体,如化学烧瓶,反光物体,如金属水壶和关节物体,如剪刀)效果不佳。为了解决这个限制,我们提出了Rocap,这是一个机器人流水线,模拟人类操作目标物体,同时生成带有地面真实姿态信息的数据标签。用户首先将目标物体交给机器臂,系统会以各种6D配置拍摄物体的多张照片。系统通过使用捕获的图像和机器臂关节角度自动计算的地面真实姿态信息来训练模型。我们通过使用收集的数据训练简单的深度学习模型来展示外观变化物体的姿态估计,并通过定量和定性评估将结果与基于3D重建的合成数据训练模型进行比较。研究结果强调了Rocap的有前途的能力。
  • 图表
  • 解决问题
    论文旨在解决深度学习中目标位姿估计的数据获取问题,特别是对于易变形、透明、反射和关节式物体等难以通过传统方法获取训练数据的物体。
  • 关键思路
    论文提出了一种机器人辅助的数据采集方法,通过机器人模拟人类对目标物体的操控,采集多张物体在不同6D姿态下的图片,并根据机械臂的关节角度自动计算出真实位姿标签,以此来训练深度学习模型。
  • 其它亮点
    论文使用了机器人辅助的数据采集方法,解决了目标位姿估计中数据获取困难的问题,实验结果表明该方法在处理易变形等难以处理的物体时效果更好。论文还开源了数据集和代码,方便其他研究者使用和复现。
  • 相关研究
    近期相关研究包括:Learning to Learn How to Learn: Self-Adaptive Visual Navigation Using Meta-Learning、Efficient and Robust Large-Scale Pose Estimation via Randomized Object Coordinate Frames和Deep Object Pose Estimation for Semantic Robotic Grasping of Household Objects等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论