Parameter-efficient Fine-tuning in Hyperspherical Space for Open-vocabulary Semantic Segmentation

2024年05月29日
  • 简介
    开放词汇语义分割旨在对图像中的每个像素进行任意文本描述的标记。近来,视觉语言基础模型,特别是CLIP,已成为获取开放词汇能力的强大工具。然而,对CLIP进行微调以使其具备像素级预测能力时往往存在三个问题:1)高计算成本,2)CLIP两种固有模态之间的不对齐,以及3)在未见类别上降低了泛化能力。为了解决这些问题,我们提出了H-CLIP,这是一种在超球空间中进行的对两种CLIP模态进行对称参数高效微调(PEFT)策略。具体而言,PEFT策略通过一系列高效的块对角可学习变换矩阵和所有可学习矩阵之间的双重交叉关系通信模块来实现。由于PEFT策略对两种CLIP模态进行对称微调,因此它们之间的不对齐得到缓解。此外,我们根据超球能量原理对CLIP文本编码器施加了额外的PEFT约束,即在微调过程中最小化超球能量,以保留原始参数空间的内在结构,以防止CLIP文本编码器提供的泛化能力被破坏。在各种基准测试中进行的广泛评估表明,H-CLIP实现了新的SOTA开放词汇语义分割结果,而仅需要更新CLIP的总参数的约4%。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决使用CLIP进行开放词汇语义分割时的高计算成本、两种模态之间的不对齐和对未见类别的降级泛化能力等问题。
  • 关键思路
    论文提出了一种对两种CLIP模态进行对称参数高效微调(PEFT)策略的方法,该方法通过一系列高效的块对角可学习转换矩阵和所有可学习矩阵之间的双重交叉关系通信模块来实现。同时,论文还应用了额外的约束条件,即根据超球能量原则对CLIP文本编码器进行PEFT,即在微调期间最小化超球能量,以保留CLIP文本编码器提供的泛化能力的内在结构,从而避免破坏其泛化能力。
  • 其它亮点
    本文提出的H-CLIP方法在各种基准测试中均取得了新的SOTA开放词汇语义分割结果,同时只需要更新CLIP总参数的约4%。实验使用了多个数据集,包括COCO-Stuff, ADE20K和PASCAL-Context等。论文还公开了代码。
  • 相关研究
    在这个领域的相关研究包括:1)使用其他视觉-语言模型进行语义分割,如ViLBERT和VisualBERT;2)使用其他先进的预训练模型进行语义分割,如DeiT和SwAV。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问