- 简介我们研究了处理具有不同材质属性(漫反射、镜面反射、透明和混合)的日常物品的三维物体理解任务。现有的单目和RGB-D方法由于缺失或不精确的深度测量而受到尺度歧义的影响。我们提出了CODERS,这是一种单阶段方法,用于从立体图像中进行类别级别的物体检测、姿态估计和重建。我们的流水线基于一个隐式立体匹配模块,它将立体图像特征与三维位置信息相结合。将该模块与下一个变换解码器结构连接起来,可以实现机器人操作所需的多个任务的端到端学习。我们的方法在公共的TOD数据集中显著优于所有竞争方法。此外,通过对模拟数据进行训练,CODERS在真实世界机器人操作实验中可以很好地推广到未见过的类别级别物体实例。我们的数据集、代码和演示将在我们的项目页面上提供。
- 图表
- 解决问题该论文旨在解决机器人操作中的三维物体理解任务,特别是针对具有不同材质属性(漫反射、镜面反射、透明和混合)的日常物品的操作。现有的单目和RGB-D方法由于缺少或不精确的深度测量而存在尺度模糊问题。
- 关键思路该论文提出了CODERS,一种基于立体图像的一阶段方法,用于类别级别物体检测、姿态估计和重建。CODERS的基础是一个隐式立体匹配模块,它将立体图像特征与三维位置信息相结合。通过连接这个模块和下一个变换解码器架构,可以实现机器人操作所需的多个任务的端到端学习。与公共TOD数据集中的所有竞争方法相比,我们的方法显著优于它们。此外,CODERS在模拟数据上训练后,能够很好地推广到真实世界机器人操作实验中看不见的类别级别物体实例。
- 其它亮点实验结果表明,CODERS在类别级别物体检测、姿态估计和重建方面的性能均优于当前最先进的方法。该论文还提供了数据集、代码和演示,并且可以很好地推广到真实世界机器人操作中。
- 最近的相关研究包括:End-to-End Object Detection with Transformers、Stereo R-CNN等。
沙发等你来抢
去评论
评论
沙发等你来抢