从现实世界中的 3D 场景拍摄得到 2D 图片时,会不可避免地产生「遮挡」,即距离相机近的物体会挡住后面的物体,使其部分不可见。如何从一张单目图像中识别遮挡并同时推理出物体间遮挡与被遮挡的关系?这个任务被称为遮挡关系推理(Occlusion relationship reasoning)。

由于图像边界的稀疏性,检索单目图像中物体之间的遮挡关系具有挑战性。研究人员观察到,现有工作中存在两个关键问题:1)缺乏可以利用解码器阶段两个子任务遮挡边界提取和遮挡方向预测之间有限耦合量的架构;2)遮挡方向的不正确表示。 

为了解决第一个问题,来自北京邮电大学和字节跳动视觉技术团队的研究者们提出了一种被称为遮挡共享和路径分离网络(OPNet)的网络结构,它通过利用共享 high-level 特征中的丰富遮挡线索和特定任务的 low-level 特征中的结构化空间信息来解决该问题。

为了解决第二个问题,研究者又提出了用于预测遮挡方向的正交遮挡表示法(OOR)。该方法在标准 PIOD / BSDS ownership 数据集上以 6.1%/8.3% Boundary-AP 和 6.5%/10% Orientation-AP 超过此前最先进的方法。 

论文链接:https://arxiv.org/abs/2108.05722

代码链接:https://github.com/fengpanhe/MT-ORL

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除