Random Word Data Augmentation with CLIP for Zero-Shot Anomaly Detection

M Tamura
[Hitachi America]

用CLIP进行零样本异常检测的随机词数据增强

  • 提出一种新的零样本异常检测方法,使用CLIP生成训练数据,而不是直接使用CLIP进行推理。
  • 通过在包含“正常”和“异常”关键词的模板提示中插入随机词来生成训练文本提示,随机词在嵌入空间中创建了多样性。
  • 一个前馈神经网络在CLIP的文本嵌入上训练来分类正常与异常,允许在新的图像上进行异常检测,而不需要特定的对象类别信息。
  • 与WinCLIP等先前工作不同,在推理期间不需要进行麻烦的提示工程或集成,显示了强大的性能。
  • 实验表明,该方法在检测类别模糊或未知的对象的异常方面效果很好。
  • 该方法在增强的文本提示而不是自然句子上训练前馈网络,分析表明,网络学习区分嵌入,尽管它们的分布不同。
  • 该方法提供了一种利用CLIP的多样化零样本异常检测能力的方式,而不过于依赖它的对象分类知识。

动机:传统的异常检测方法需要大量的正常样本进行训练,而获取各种异常样本非常困难。本文的动机是提出一种新的方法,利用视觉-语言模型CLIP作为数据源进行零样本异常检测。
方法:提出一种基于CLIP的异常检测方法。通过在CLIP的文本编码器中生成包含正常和异常单词的提示,进而生成一组多样化的嵌入向量。利用这些嵌入向量作为训练数据,通过前馈神经网络学习从CLIP的嵌入向量中提取正常和异常特征,从而实现了无需训练图像的通用异常检测器。
优势:1)不需要针对每个对象类别训练模型,可以应对大量目标对象的情况;2)在零样本设置下,无需繁琐的提示组合即可达到与最先进方法相当的性能。

一句话总结: 提出一种利用CLIP进行零样本异常检测的方法,通过生成多样化的嵌入向量,利用前馈神经网络提取正常和异常特征,实现了通用的异常检测器。

https://arxiv.org/abs/2308.11119 


图片图片图片

内容中包含的图片若涉及版权问题,请及时与我们联系删除