- 简介大型视觉语言模型(LVLM)在自然语言的指导下,能够显著地推导出视觉表示。最近的探索利用LVLM来解决零样本视觉异常检测(VAD)挑战,通过将图像与指示正常和异常条件的文本描述配对,称为异常提示。然而,现有方法依赖于静态的异常提示,容易出现跨语义歧义,并且优先考虑全局图像级别表示,而忽略了对于准确异常定位所必需的关键局部像素级图像到文本对齐。在本文中,我们提出了ALFA,一种无需训练的方法,通过一个统一的模型来解决这些挑战。我们提出了一种运行时提示自适应策略,首先生成信息量大的异常提示,以利用大型语言模型(LLM)的能力。该策略通过上下文评分机制增强,以进行每个图像的异常提示自适应和跨语义歧义缓解。我们进一步引入了一种新颖的细粒度对齐器,通过将从全局到局部语义空间的图像-文本对齐投影,融合局部像素级语义,实现精确的异常定位。在具有挑战性的MVTec和VisA数据集上进行的广泛评估证实了ALFA利用语言潜力进行零样本VAD的有效性,与现有的零样本VAD方法相比,在MVTec AD上实现了12.1%的PRO改进,在VisA上实现了8.9%的改进。
- 图表
- 解决问题本论文旨在解决零样本视觉异常检测中存在的静态异常提示存在交叉语义歧义和优先考虑全局图像级别表示而非精确定位异常的问题。
- 关键思路ALFA是一种无需训练的方法,旨在通过一个统一的模型来解决这些挑战。该方法采用了一种运行时提示自适应策略,首先生成信息丰富的异常提示,以利用大型语言模型的能力。此策略通过上下文得分机制进行了增强,以进行每个图像的异常提示自适应和交叉语义歧义缓解。此外,该论文还引入了一种新颖的细粒度对齐器,以将局部像素级语义投影到全局语义空间,从而实现精确定位异常。
- 其它亮点该论文在具有挑战性的MVTec和VisA数据集上进行了广泛的评估,证明了ALFA在利用语言潜力进行零样本VAD方面的有效性,与现有的零样本VAD方法相比,在MVTec AD和VisA上实现了分别为12.1%和8.9%的PRO改进。
- 最近在这个领域中,还有一些相关的研究,如《Zero-shot Anomaly Detection via Knowledge Transfer》和《Zero-shot Learning for Visual Detection of Anomalies》。
沙发等你来抢
去评论
评论
沙发等你来抢