OpenDAS: Domain Adaptation for Open-Vocabulary Segmentation

向作者提问

NEW

简介

“视觉语言模型（VLM）的出现将图像理解从封闭集分类转变为动态图像-语言交互，实现了开放词汇分割。尽管具有这种灵活性，但由于依赖于模糊的图像标题和缺乏特定领域的知识，VLM通常在准确性方面落后于封闭集分类器。因此，我们引入了一种新的任务领域自适应方法，为开放词汇分割增强了具有特定领域先验知识的VLM，同时保持了其开放词汇的特性。现有的自适应方法在应用于分割任务时，可以提高训练查询的性能，但会降低VLM对零样本文本输入的性能。为了解决这个问题，我们提出了一种方法，将参数高效的提示微调与三元组损失训练策略相结合。该策略旨在增强开放词汇的泛化能力，同时适应视觉领域。我们的结果在室内和室外数据集的开放词汇分割分类任务中优于其他参数高效的自适应策略。值得注意的是，我们的方法是唯一一个在零样本查询上始终优于原始VLM的方法。我们适应的VLM可以插入到现有的开放词汇分割流程中，无需任何更改即可提高ADE20K上的OV-Seg +6.0％ mIoU和ScanNet ++ Offices上的OpenMask3D +4.1％ AP。”
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文试图通过引入领域特定的先验知识，提高视觉语言模型在开放词汇分割任务中的性能，同时保持其开放词汇性质。现有的领域适应方法在分割任务中会降低VLM在零样本文本输入上的性能。
关键思路

本文提出了一种组合参数有效的提示调整和三元组损失训练策略的方法，旨在增强开放词汇的泛化能力同时适应视觉领域。这种方法能够显著提高室内和室外数据集上的开放词汇分割分类任务的性能，并在零样本查询上始终优于原始VLM。
其它亮点

本文提出的方法在ADE20K和ScanNet ++ Offices数据集上分别提高了OV-Seg +6.0％ mIoU和OpenMask3D +4.1％ AP的性能。实验结果表明，本文提出的方法在开放词汇分割任务中优于其他参数有效的适应策略，并且是唯一始终优于原始VLM的方法。本文提出的方法可以直接应用于现有的开放词汇分割流水线中。
相关研究

最近的相关研究包括《Unsupervised Domain Adaptation for Semantic Segmentation via Class-Balanced Self-Training》和《Learning to Adapt to Unseen Domains via Memory-Augmented Recursive Translation》。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问