- 简介人类会将世界看作是一系列简单参数模型的组合。特别地,我们通常可以使用体积图元(如长方体或圆柱体)来描述人造环境。推断这些图元对于获得高层次、抽象的场景描述非常重要。以往的基于图元的抽象方法直接估计形状参数,只能再现简单的对象。相反,我们提出了一种健壮的图元拟合估算器,可以使用长方体有意义地抽象复杂的真实环境。一个由神经网络引导的RANSAC估算器将这些图元拟合到深度图中。我们将网络的条件设置为先前检测到的场景部分,逐一解析它。为了从单个RGB图像中获得长方体,我们还通过端到端优化深度估计CNN。简单地最小化点到图元的距离会导致大型或虚假的长方体遮挡场景的部分。因此,我们提出了一种改进的遮挡感知距离度量,可以正确处理不透明场景。此外,我们提出了一种基于神经网络的长方体求解器,可以提供更简约的场景抽象,同时还可以减少推断时间。所提出的算法不需要劳动密集型的标注,如长方体注释,进行训练。在NYU Depth v2数据集上的结果表明,所提出的算法成功地抽象了杂乱的真实世界3D场景布局。
-
- 图表
- 解决问题本文旨在通过拟合基础几何体,对复杂的现实世界环境进行有意义的抽象,提高高级别、抽象的场景描述的准确性。此前的方法直接估计形状参数,只能重现简单的对象。
- 关键思路本文提出了一个鲁棒的基础几何体拟合估计器,通过神经网络引导RANSAC估计器将这些几何体拟合到深度图中。我们通过先前检测到的场景部分对网络进行条件化,逐一解析场景。为了从单个RGB图像中获得基础几何体,我们还通过端到端优化深度估计CNN。本文提出了一种改进的遮挡感知距离度量,正确处理不透明场景。此外,我们提出了一种基于神经网络的基础几何体求解器,可以提供更简洁的场景抽象,并减少推理时间。
- 其它亮点本文的亮点在于提出了一种新的基础几何体拟合估计器,通过神经网络引导RANSAC估计器将这些几何体拟合到深度图中,同时提出了一种改进的遮挡感知距离度量,正确处理不透明场景。实验结果表明,该算法可以成功地抽象杂乱的现实世界3D场景布局,而且不需要繁琐的标注。
- 最近的相关研究包括:《3D Bounding Box Estimation Using Deep Learning and Geometry》、《Deep Learning 3D Shape Surfaces Using Geometry Images》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流