论文标题:FFB6D: A Full Flow Bidirectional Fusion Network for 6D Pose Estimation 论文链接:https://arxiv.org/abs/2103.02242 代码链接:https://github.com/ethnhe/FFB6D 作者单位:香港科技大学 & 旷视 & 快手 表现SOTA!性能优于PVN3D、PointFusion等网络,代码即将开源!

在这项工作中,我们介绍了FFB6D,这是一种全流双向融合网络,旨在根据单个RGBD图像进行6D姿态估计。我们的主要insight是RGB图像中的外观信息和深度图像中的几何信息是两个互补的数据源,如何充分利用它们仍然是未知的。为此,我们提出了FFB6D,它可以学习将外观和几何信息相结合以进行表示学习以及输出表示选择。具体来说,在表示学习阶段,我们在两个网络的完整流程中构建双向融合模块,其中将融合应用于每个编码和解码层。这样,两个网络可以利用来自另一个网络的本地和全局补充信息来获得更好的表示。此外,在输出表示阶段,我们考虑了对象的纹理和几何信息,设计了一种简单而有效的3D关键点选择算法,从而简化了关键点定位以进行精确的姿势估计。实验结果表明,在几种基准测试中,我们的方法在性能上远远超过了最新技术。

内容中包含的图片若涉及版权问题,请及时与我们联系删除