- 简介少样本3D点云分割(FS-PCS)旨在将模型泛化到仅有少量标注支持样本的新类别上。尽管现有的FS-PCS方法已经显示出潜力,但它们主要集中在单模态点云输入上,忽视了利用多模态信息的潜在好处。在本文中,我们通过引入一种无需额外成本的多模态FS-PCS框架来填补这一空白,该框架利用文本标签和可能可用的2D图像模态。在这种易于实现的框架下,我们提出了多模态少样本分割网络(MultiModal Few-Shot SegNet,简称MM-FSS),该模型能够有效利用多种模态的互补信息。MM-FSS采用共享主干网络和两个头部来提取跨模态和单模态视觉特征,并使用预训练的文本编码器生成文本嵌入。为了充分利用多模态信息,我们提出了一种多模态关联融合(Multimodal Correlation Fusion,简称MCF)模块来生成多模态关联,以及一种多模态语义融合(Multimodal Semantic Fusion,简称MSF)模块,通过文本感知的语义指导来细化这些关联。此外,我们还提出了一种简单而有效的测试时自适应跨模态校准(Test-time Adaptive Cross-modal Calibration,简称TACC)技术,以减轻训练偏差,进一步提高泛化能力。在S3DIS和ScanNet数据集上的实验结果表明,我们的方法显著提升了性能。我们的方法的有效性表明,利用通常被忽略的免费模态对FS-PCS是有益的,为未来的研究提供了宝贵的见解。代码可在以下地址获取:https://github.com/ZhaochongAn/Multimodality-3D-Few-Shot
- 图表
- 解决问题该论文旨在解决3D点云分割中的少样本学习问题,特别是在利用多模态信息方面。现有的方法主要集中在单模态点云输入上,而忽略了文本标签和2D图像等多模态信息的潜在价值。
- 关键思路论文提出了MultiModal Few-Shot SegNet (MM-FSS),这是一种能够有效利用多模态信息的模型。MM-FSS通过共享骨干网络提取跨模态和单模态视觉特征,并使用预训练的文本编码器生成文本嵌入。为了充分利用多模态信息,论文还提出了多模态关联融合(Multimodal Correlation Fusion, MCF)模块和多模态语义融合(Multimodal Semantic Fusion, MSF)模块,以及测试时自适应跨模态校准(Test-time Adaptive Cross-modal Calibration, TACC)技术来减轻训练偏差。
- 其它亮点1. 提出了一个成本低廉的多模态少样本3D点云分割框架,利用文本标签和2D图像。 2. 设计了MCF和MSF模块,分别用于生成多模态关联和利用文本感知的语义指导来细化这些关联。 3. 引入了TACC技术,以减少训练偏差,提高泛化能力。 4. 在S3DIS和ScanNet数据集上的实验结果表明,该方法显著提升了性能。 5. 开源代码已发布在GitHub上,便于复现和进一步研究。
- 近年来,少样本3D点云分割领域的一些相关研究包括: 1. "Point Few-Shot Learning for 3D Object Detection" - 探索了在3D目标检测中的少样本学习方法。 2. "Meta-Learning for Few-Shot 3D Point Cloud Segmentation" - 提出了一种元学习方法来处理少样本3D点云分割任务。 3. "Cross-Modal 3D Point Cloud Segmentation via Multi-View Fusion" - 研究了多视图融合在3D点云分割中的应用。 4. "Text-Guided 3D Point Cloud Segmentation" - 利用文本信息指导3D点云分割任务。
沙发等你来抢
去评论
评论
沙发等你来抢