Hitachi America｜用CLIP进行零样本异常检测的随机词数据增强

Random Word Data Augmentation with CLIP for Zero-Shot Anomaly Detection

M Tamura
[Hitachi America]

用CLIP进行零样本异常检测的随机词数据增强

提出一种新的零样本异常检测方法，使用CLIP生成训练数据，而不是直接使用CLIP进行推理。
通过在包含“正常”和“异常”关键词的模板提示中插入随机词来生成训练文本提示，随机词在嵌入空间中创建了多样性。
一个前馈神经网络在CLIP的文本嵌入上训练来分类正常与异常，允许在新的图像上进行异常检测，而不需要特定的对象类别信息。
与WinCLIP等先前工作不同，在推理期间不需要进行麻烦的提示工程或集成，显示了强大的性能。
实验表明，该方法在检测类别模糊或未知的对象的异常方面效果很好。
该方法在增强的文本提示而不是自然句子上训练前馈网络，分析表明，网络学习区分嵌入，尽管它们的分布不同。
该方法提供了一种利用CLIP的多样化零样本异常检测能力的方式，而不过于依赖它的对象分类知识。

动机：传统的异常检测方法需要大量的正常样本进行训练，而获取各种异常样本非常困难。本文的动机是提出一种新的方法，利用视觉-语言模型CLIP作为数据源进行零样本异常检测。
方法：提出一种基于CLIP的异常检测方法。通过在CLIP的文本编码器中生成包含正常和异常单词的提示，进而生成一组多样化的嵌入向量。利用这些嵌入向量作为训练数据，通过前馈神经网络学习从CLIP的嵌入向量中提取正常和异常特征，从而实现了无需训练图像的通用异常检测器。
优势：1)不需要针对每个对象类别训练模型，可以应对大量目标对象的情况；2)在零样本设置下，无需繁琐的提示组合即可达到与最先进方法相当的性能。

一句话总结：提出一种利用CLIP进行零样本异常检测的方法，通过生成多样化的嵌入向量，利用前馈神经网络提取正常和异常特征，实现了通用的异常检测器。

https://arxiv.org/abs/2308.11119

内容中包含的图片若涉及版权问题，请及时与我们联系删除

Hitachi America｜用CLIP进行零样本异常检测的随机词数据增强

评论列表

评论