Less is More: Towards Efficient Few-shot 3D Semantic Segmentation via Training-free Networks

解决问题:本篇论文旨在解决3D语义分割中的few-shot学习问题,即如何在小规模数据集上进行高效的分割任务。通过提出一种无需预训练的网络TFS3D和一种基于训练的变体TFS3D-T,本文试图解决few-shot学习中的时间开销和领域差异问题。

关键思路:本文的关键思路是提出一种无需预训练的网络TFS3D,通过三角函数位置编码提取密集表示,从而减少时间开销和领域差异问题,并在此基础上提出一种基于训练的变体TFS3D-T,通过轻量级的查询-支持转移注意力(QUEST)增强few-shot查询和支持数据之间的交互,从而提高了分割性能。

其他亮点:本文的实验结果表明,TFS3D-T在S3DIS和ScanNet数据集上分别比之前的最先进方法提高了6.93%和17.96%的mIoU,同时减少了90%的训练时间,具有显著的效果和效率优势。此外,本文的方法无需预训练,可以避免领域差异问题,并且使用了三角函数位置编码提取密集表示,具有一定的创新性。

相关研究:近期的相关研究包括:

  1. "Few-shot 3D Indoor Scene Parsing with Limited Support Set",作者:Jiaxin Li等,机构:南京大学。
  2. "Few-shot Point Cloud Semantic Segmentation with Meta Adapted Segmentation Network",作者:Xu Chen等,机构:香港中文大学。
  3. "Few-Shot Learning for 3D Point Cloud Semantic Segmentation: A Comparative Study",作者:Yiwen Guo等,机构:香港科技大学。

论文摘要:为了减少对大规模数据集的依赖,近期的3D分割工作采用了少样本学习。当前的3D少样本语义分割方法首先在“已知”类别上预训练模型,然后在“未知”类别上评估其泛化性能。然而,先前的预训练阶段不仅引入了过多的时间开销,而且在“未知”类别上会产生显著的领域差距。为了解决这些问题,本文提出了一种高效的无需训练的少样本3D分割网络TFS3D,以及一个基于进一步训练的变体TFS3D-T。TFS3D不需要任何可学习参数,通过三角函数位置编码提取密集表示,并实现了与先前基于训练的方法相当的性能。由于消除了预训练,TFS3D可以缓解领域差距问题并节省大量时间。在TFS3D的基础上,TFS3D-T只需要训练一个轻量级的查询支持传递注意力(QUEST),以增强少样本查询和支持数据之间的交互。实验表明,TFS3D-T在S3DIS和ScanNet上分别将先前最先进的方法的mIoU分别提高了6.93%和17.96%,同时减少了90%的训练时间,表现出优越的有效性和效率。

内容中包含的图片若涉及版权问题,请及时与我们联系删除