- 简介3D 语义占据预测是视觉感知中的一个重要任务,因为它需要同时理解场景的几何结构和语义信息。它在理解3D场景中起着关键作用,并在机器人视觉感知和自动驾驶等各种应用中具有巨大潜力。许多现有工作使用基于平面的表示方法,例如鸟瞰图(BEV)和三视图(TPV)。这些表示方法旨在简化3D场景的复杂性,同时保留物体的关键信息,从而实现高效的场景表示。然而,在密集的室内环境中,由于遮挡现象普遍存在,直接应用这些基于平面的方法往往难以捕捉全局语义占据,最终导致模型性能下降。 在本文中,我们提出了一种新的垂直切片表示方法,该方法沿垂直轴分割场景,并将空间点特征投影到最近的一对平行平面上。为了利用这些切片特征,我们提出了SliceOcc,这是一种专门针对室内3D语义占据预测设计的基于RGB相机的模型。SliceOcc利用成对的切片查询和交叉注意力机制从输入图像中提取平面特征。这些局部平面特征随后被融合以形成全局场景表示,用于室内占据预测。在EmbodiedScan数据集上的实验结果表明,SliceOcc在81个室内类别上实现了15.45%的mIoU,成为基于RGB相机的室内3D语义占据预测模型中的最新技术水平。代码可在https://github.com/NorthSummer/SliceOcc 获取。
- 图表
- 解决问题该论文试图解决在密集的室内环境中,使用现有的基于平面的表示方法(如BEV和TPV)进行3D语义占用预测时遇到的挑战。由于这些方法在处理频繁遮挡的情况下难以捕捉全局语义占用信息,导致模型性能下降。这是一个需要改进的问题,特别是在复杂室内场景中。
- 关键思路关键思路是引入了一种新的垂直切片表示方法,该方法沿垂直轴分割场景,并将空间点特征投影到最近的一对平行平面上。为了利用这些切片特征,提出了SliceOcc模型,它通过RGB相机输入图像提取局部平面特征,并通过交叉注意力机制和切片查询对这些特征进行融合,形成全局场景表示,从而实现更精确的室内3D语义占用预测。相比现有方法,这种垂直切片表示能够更好地应对密集室内环境中的遮挡问题。
- 其它亮点1. SliceOcc在EmbodiedScan数据集上实现了15.45%的mIoU,覆盖了81个室内类别,成为RGB相机基线模型中新的SOTA。 2. 论文提出了一种新颖的垂直切片表示方法,显著提升了在密集室内环境下的性能。 3. 模型使用了交叉注意力机制和切片查询来提取和融合局部平面特征。 4. 提供了开源代码,便于后续研究者复现和改进:https://github.com/NorthSummer/SliceOcc。 5. 值得继续深入研究的方向包括如何进一步优化切片表示以适应更多样化的场景,以及探索其他传感器模态与RGB图像的融合。
- 近期相关研究包括: 1. “Occupancy Flow: 4D Reconstruction by Learning Particle Dynamics”,探讨了通过学习粒子动力学来进行4D重建。 2. “Panoptic Segmentation with PanopticFPN”,提出了用于全景分割的框架。 3. “Multi-View Stereo Networks for High Resolution Large-Scale 3D Reconstruction”,研究了多视角立体网络在大规模3D重建中的应用。 4. “Learning to Predict 3D Objects with an Interpolation-based Differentiable Renderer”,介绍了一种基于插值的不同可微渲染器来预测3D物体的方法。
沙发等你来抢
去评论
评论
沙发等你来抢