VCP-CLIP: A visual context prompting model for zero-shot anomaly segmentation

2024年07月17日
  • 简介
    最近,像CLIP这样的大规模视觉语言模型在零样本异常分割(ZSAS)任务中展示了巨大的潜力,利用一个统一的模型,通过精心设计的文本提示直接检测任何未见过的产品中的异常。然而,现有的方法通常假设要检查的产品类别已知,因此设置了产品特定的文本提示,这在数据隐私场景下很难实现。此外,即使是同一类型的产品,由于特定部件和生产过程中的差异,也存在显著的差异,给文本提示的设计带来了重大挑战。因此,我们提出了一个基于CLIP的ZSAS任务的视觉上下文提示模型(VCP-CLIP)。VCP-CLIP的灵感是利用视觉上下文提示来激活CLIP的异常语义感知能力。具体而言,我们首先设计了一个Pre-VCP模块,将全局视觉信息嵌入到文本提示中,从而消除了产品特定提示的必要性。然后,我们提出了一个新颖的Post-VCP模块,利用图像的细粒度特征调整文本嵌入。在对10个真实工业异常分割数据集进行的广泛实验中,VCP-CLIP在ZSAS任务中取得了最先进的性能。代码可在https://github.com/xiaozhen228/VCP-CLIP上获得。
  • 图表
  • 解决问题
    本论文旨在解决零样本异常分割(ZSAS)任务中产品类别未知的情况下,难以设计特定的文本提示的问题,提出了一种基于CLIP的视觉上下文提示模型(VCP-CLIP)。
  • 关键思路
    VCP-CLIP模型的关键思路是利用视觉上下文提示来激活CLIP的异常语义感知能力,通过设计Pre-VCP模块将全局视觉信息嵌入文本提示,消除了产品特定提示的必要性,然后提出了一种新的Post-VCP模块,通过使用图像的细粒度特征来调整文本嵌入。
  • 其它亮点
    论文在10个真实工业异常分割数据集上进行了广泛的实验,VCP-CLIP在ZSAS任务中取得了最新的性能表现,实验结果表明该模型的性能优于现有的方法。论文提供了开源代码,可在https://github.com/xiaozhen228/VCP-CLIP上获取。
  • 相关研究
    最近的相关研究包括CLIP等大规模视觉语言模型的发展,以及用于异常检测的其他技术,例如基于深度学习的方法和传统的基于图像统计的方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论