Know Your Neighbors: Improving Single-View Reconstruction via Spatial Vision-Language Reasoning

简介

从单个视图恢复三维场景几何是计算机视觉中一个基本但不适定的问题。传统的深度估计方法仅推断出限于图像平面的2.5D场景表示，而基于辐射场的最近方法重建了完整的3D表示。然而，这些方法仍然难以处理遮挡区域，因为在没有视觉观察的情况下推断几何形状需要（i）对周围环境的语义知识和（ii）对空间上下文进行推理。我们提出了KYN，一种新的单视图场景重建方法，它通过推理语义和空间上下文来预测每个点的密度。我们引入了一种视觉语言调节模块，通过细粒度的语义信息丰富点特征。我们通过一种语言引导的空间注意机制聚合整个场景中的点表示，从而产生了感知3D语义上下文的每个点的密度预测。我们证明KYN相比于孤立地预测每个3D点的密度可以改善3D形状恢复。我们在KITTI-360上实现了场景和物体重建的最新结果，并显示与先前工作相比改进的零样本泛化。项目页面：https://ruili3.github.io/kyn。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

该论文试图解决从单个视角恢复三维场景几何的问题，尤其是在存在遮挡区域时的挑战。
关键思路

该论文提出了一种名为KYN的方法，通过语义和空间上下文推断每个点的密度来进行单视角场景重建，并引入了视觉-语言调制模块和语言引导的空间注意机制来增强点特征的语义信息和聚合场景中的点表示。
其它亮点

该论文在KITTI-360数据集上实现了最先进的场景和物体重建结果，并展示了相比于之前的方法更好的零样本泛化能力。论文作者还提供了项目页面和开源代码。
相关研究

在最近的相关研究中，还有一些使用语义信息进行单视角场景重建的方法，如SemanticFusion和DeepSDF。

Know Your Neighbors: Improving Single-View Reconstruction via Spatial Vision-Language Reasoning

提问交流

提问交流