Toward Generalist Anomaly Detection via In-context Residual Learning with Few-shot Sample Prompts

2024年03月11日
  • 简介
    本文探讨了通用异常检测(GAD)问题,旨在训练一个单一的检测模型,能够概括地检测不同应用领域的各种数据集中的异常,而不需要在目标数据上进行进一步的训练。一些最近的研究表明,像CLIP这样的大型预训练视觉语言模型(VLMs)在检测各种数据集中的工业缺陷方面具有很强的概括能力,但它们的方法严重依赖于关于缺陷的手工文本提示,使它们难以概括到其他应用中的异常,例如医学图像异常或自然图像中的语义异常。在这项工作中,我们提出使用少量正常图像作为样本提示,在不同数据集上即时训练GAD模型。为此,我们引入了一种新方法,学习一种用于GAD的上下文残差学习模型,称为InCTRL。它在辅助数据集上训练,基于查询图像和少量正常样本提示之间的综合残差评估来区分异常和正常样本。由于异常的定义,无论数据集如何,异常的残差都应该比正常样本的残差大,从而使InCTRL能够在不进行进一步训练的情况下横跨不同领域进行概括。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在解决通用异常检测(GAD)问题,即训练一个单一的检测模型,可以泛化到不同应用领域的各种数据集上,而不需要在目标数据上进行进一步的训练。
  • 关键思路
    本文提出了一种名为InCTRL的方法,通过在辅助数据集上训练一个上下文残差学习模型来实现GAD。该模型利用少量正常图像样本作为样本提示,通过对查询图像和正常样本提示之间的残差进行全面评估,来区分异常和正常样本。
  • 其它亮点
    本文的亮点在于提出了一种新的方法来解决通用异常检测问题,该方法可以在不同的应用领域中实现泛化,而不需要在目标数据上进行进一步的训练。实验结果表明,InCTRL模型在各种数据集上都表现出了很好的检测性能。此外,本文还提出了一种新的评估指标来衡量模型的检测性能。本文的工作可以为未来的研究提供参考,例如如何在不同的应用领域中实现更好的泛化。
  • 相关研究
    最近的相关研究包括使用大型预训练视觉-语言模型(VLMs)如CLIP来检测各种数据集中的工业缺陷。然而,这些方法在关于缺陷的手工文本提示方面依赖性很强,难以推广到其他应用中的异常情况,例如医学图像异常或自然图像中的语义异常。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问