Dual-Image Enhanced CLIP for Zero-Shot Anomaly Detection

2024年05月08日
  • 简介
    图像异常检测一直是计算机视觉领域中的一个具有挑战性的任务。随着视觉语言模型的出现,特别是基于CLIP的框架的兴起,为零样本异常检测开辟了新的途径。最近的研究探索了使用CLIP通过将图像与正常和提示性描述对齐的方法。然而,仅依赖于文本指导往往不足,突显了额外视觉参考的重要性。在本研究中,我们引入了一种双图像增强CLIP方法,利用联合视觉语言评分系统。我们的方法处理图像对,利用每个图像作为另一个图像的视觉参考,从而丰富了推理过程的视觉上下文。这种双图像策略显著提高了异常分类和定位性能。此外,我们还使用测试时间适应模块加强了我们的模型,该模块包括合成异常以改善定位能力。我们的方法充分利用了视觉语言联合异常检测的潜力,并在各种数据集上展示了与当前SOTA方法相当的性能。
  • 图表
  • 解决问题
    本文旨在解决图像异常检测中仍然存在的挑战性问题,即如何在不需要额外文本描述的情况下进行零样本异常检测。
  • 关键思路
    本文提出了一种双图增强CLIP方法,利用联合视觉-语言评分系统处理图像对,将每个图像用作另一个图像的视觉参考,从而丰富推理过程的视觉上下文。此外,该方法还使用测试时适应模块,将合成异常引入模型以提高定位能力。
  • 其它亮点
    本文的实验结果表明,双图增强CLIP方法在不同数据集上的性能都有显著提升。此外,本文的方法还可以通过合成异常进行测试时适应,进一步提高了定位能力。
  • 相关研究
    最近的相关研究包括:'Zero-shot Anomaly Detection with Contrastive Learning and Adversarial Background Regularization','Few-shot Object Detection with Attention-RPN and Multi-Relation Detector'等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论