MatchU: Matching Unseen Objects for 6D Pose Estimation from RGB-D Images

简介

最近的物体姿态估计学习方法需要为每个单独的物体实例或类别进行资源密集型训练，当面临之前未见过的物体时，这会阻碍它们在实际应用中的可扩展性。本文提出了MatchU，一种从RGB-D图像进行6D姿态估计的融合-描述-匹配策略。MatchU是一种通用方法，它融合了2D纹理和3D几何线索，用于预测未见过物体的6D姿态。我们依赖于学习几何3D描述符，这些描述符是旋转不变的设计。通过编码姿态不可知的几何形状，学习的描述符自然地推广到未见过的物体并捕捉对称性。为了仅使用3D几何来解决模糊的关联，我们将额外的RGB信息融合到我们的描述符中。这是通过一种新颖的基于注意力机制的方法实现的，该方法融合了跨模态信息，以及一种匹配损失，利用从RGB数据学习的潜在空间来指导描述符学习过程。广泛的实验揭示了RGB-D融合策略以及描述符有效性的通用性。受益于新颖的设计，MatchU在准确性和速度方面都显著超过了所有现有方法，甚至无需昂贵的重新训练或渲染要求。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决目标位姿估计中的可扩展性问题，通过提出一种通用方法MatchU，融合2D纹理和3D几何线索，实现对未见过目标物体的6D位姿预测。
关键思路

MatchU的关键思路是使用旋转不变的几何3D描述符，通过编码姿态不可知的几何形状，自然地推广到未见过的物体，并捕捉对称性。通过融合额外的RGB信息和注意力机制，提高了描述符的鲁棒性和泛化能力。
其它亮点

论文的实验表明，MatchU在准确度和速度方面都超过了现有方法，即使不需要昂贵的重新训练或渲染。实验使用了多个数据集，并且已经开源了代码。值得进一步研究的是，如何将MatchU应用于其他任务和领域。
相关研究

相关研究包括：PVNet, PoseCNN, Densefusion等。

MatchU: Matching Unseen Objects for 6D Pose Estimation from RGB-D Images

提问交流

提问交流