Visual Foundation Models Boost Cross-Modal Unsupervised Domain Adaptation for 3D Semantic Segmentation

向作者提问

NEW

简介

无监督域自适应（UDA）对于减轻标记3D点云数据的工作量和缓解在面对新定义的域时缺乏标签的情况至关重要。最近出现了利用图像增强跨域3D分割性能的各种方法。然而，伪标签是从在源域上训练的模型生成的，并为看不见的域提供额外的监督信号，但由于其固有的噪声性质，当用于3D分割时，它们是不充分的，从而限制了神经网络的准确性。随着2D视觉基础模型（VFMs）的出现及其丰富的知识先验，我们提出了一种新的管道VFMSeg，通过利用这些模型进一步增强跨模态无监督域自适应框架。在这项工作中，我们研究如何利用VFMs学习的知识先验为未标记的目标域产生更准确的标签并改善整体性能。首先，我们利用一个多模态VFM，该VFM在大规模图像-文本对上预训练，为来自目标域的图像和点云提供监督标签（VFM-PL）。然后，我们采用另一个在精细的2D掩模上训练的VFM来指导语义增强图像和点云的生成，以增强神经网络的性能，神经网络混合来自源域和目标域的数据，如视野截锥（FrustumMixing）。最后，我们跨模态合并类别预测，以为未标记的目标域产生更准确的注释。我们的方法在各种自动驾驶数据集上进行了评估，结果表明，在3D分割任务中有显着的改进。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决无监督域自适应中伪标签噪声问题，提出了一种使用2D视觉基础模型（VFM）来增强跨模态无监督域自适应框架的方法。
关键思路

论文提出了一种新的VFMSeg流水线，利用预训练的多模态VFM为目标域中的图像和点云提供有监督标签，然后使用另一个VFM来引导生成语义增强的图像和点云，最后通过跨模态融合类别预测来产生更准确的目标域注释。
其它亮点

论文在各种自动驾驶数据集上进行了评估，并证明了VFMSeg方法在3D分割任务上的显着改进。该论文还开源了代码。
相关研究

在无监督域自适应领域，最近的相关研究包括：Unsupervised Domain Adaptation for Semantic Segmentation via Class-Balanced Self-Training、Unsupervised Domain Adaptation for 3D Point Cloud Semantic Segmentation via Distribution Alignment、Unsupervised Domain Adaptation for Semantic Segmentation via Partially Shared Feature Learning等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问