Random Word Data Augmentation with CLIP for Zero-Shot Anomaly Detection
M Tamura
[Hitachi America]
用CLIP进行零样本异常检测的随机词数据增强
-
提出一种新的零样本异常检测方法,使用CLIP生成训练数据,而不是直接使用CLIP进行推理。 -
通过在包含“正常”和“异常”关键词的模板提示中插入随机词来生成训练文本提示,随机词在嵌入空间中创建了多样性。 -
一个前馈神经网络在CLIP的文本嵌入上训练来分类正常与异常,允许在新的图像上进行异常检测,而不需要特定的对象类别信息。 -
与WinCLIP等先前工作不同,在推理期间不需要进行麻烦的提示工程或集成,显示了强大的性能。 -
实验表明,该方法在检测类别模糊或未知的对象的异常方面效果很好。 -
该方法在增强的文本提示而不是自然句子上训练前馈网络,分析表明,网络学习区分嵌入,尽管它们的分布不同。 -
该方法提供了一种利用CLIP的多样化零样本异常检测能力的方式,而不过于依赖它的对象分类知识。
动机:传统的异常检测方法需要大量的正常样本进行训练,而获取各种异常样本非常困难。本文的动机是提出一种新的方法,利用视觉-语言模型CLIP作为数据源进行零样本异常检测。
方法:提出一种基于CLIP的异常检测方法。通过在CLIP的文本编码器中生成包含正常和异常单词的提示,进而生成一组多样化的嵌入向量。利用这些嵌入向量作为训练数据,通过前馈神经网络学习从CLIP的嵌入向量中提取正常和异常特征,从而实现了无需训练图像的通用异常检测器。
优势:1)不需要针对每个对象类别训练模型,可以应对大量目标对象的情况;2)在零样本设置下,无需繁琐的提示组合即可达到与最先进方法相当的性能。
一句话总结: 提出一种利用CLIP进行零样本异常检测的方法,通过生成多样化的嵌入向量,利用前馈神经网络提取正常和异常特征,实现了通用的异常检测器。
https://arxiv.org/abs/2308.11119
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢