ClearCLIP: Decomposing CLIP Representations for Dense Vision-Language Inference

2024年07月17日
  • 简介
    尽管大规模预训练视觉-语言模型(VLMs),尤其是CLIP,在各种开放词汇任务中取得了成功,但它们在语义分割方面的应用仍然具有挑战性,会产生带有错误分割区域的嘈杂分割地图。在本文中,我们仔细重新调查了CLIP的架构,并确定残差连接是降低分割质量的主要噪声来源。通过比较分析不同预训练模型中残差连接和注意力输出的统计属性,我们发现CLIP的图像-文本对比训练范式强调全局特征,而牺牲了局部可区分性,导致分割结果嘈杂。为此,我们提出了ClearCLIP,一种新颖的方法,将CLIP的表示分解以增强开放词汇语义分割。我们对最终层进行了三个简单的修改:删除残差连接、实现自我自注意力和放弃前馈网络。ClearCLIP始终生成更清晰、更准确的分割地图,并在多个基准测试中优于现有方法,证实了我们发现的重要性。
  • 图表
  • 解决问题
    本论文旨在解决大规模预训练视觉-语言模型(VLMs)在语义分割任务中存在的问题,即产生带有错误分割区域的嘈杂分割地图。
  • 关键思路
    本文通过重新审视CLIP的架构,发现残差连接是降低分割质量的主要来源。作者提出了一种新的方法ClearCLIP来增强开放式词汇语义分割,通过对最后一层进行三个简单的修改,即去除残差连接、实现自身注意力和丢弃前馈网络,ClearCLIP能够生成更清晰、更准确的分割地图。
  • 其它亮点
    论文通过比较分析预训练模型中残差连接和注意力输出的统计特性,发现CLIP的图像-文本对比训练范式强调全局特征而牺牲了局部可区分性,导致嘈杂的分割结果。ClearCLIP在多个基准测试中表现出更清晰、更准确的分割地图,并超越了现有方法,验证了作者的发现的重要性。
  • 相关研究
    近期的相关研究包括:Vision-Language Pre-training with Contrastive Cross-Modal Tasks,Learning Transferable Visual Models From Natural Language Supervision,Unifying Vision-and-Language Tasks via Text Generation,等等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论