- 简介视觉异常检测在实际应用中非常重要,例如在工业缺陷检测和医学诊断中。然而,大多数现有方法关注局部结构异常,无法检测到在逻辑条件下更高级别的功能异常。尽管最近的研究探索了逻辑异常检测,但它们只能处理像缺失或添加这样的简单异常,并且由于严重依赖数据而表现出很差的通用性。为了填补这一空白,我们提出了SAM-LAD,这是一个零样本、即插即用的逻辑异常检测框架,适用于任何场景。首先,我们使用预训练的骨干网络获取查询图像的特征图。同时,我们通过查询图像的最近邻搜索检索参考图像及其对应的特征图。然后,我们引入Segment Anything Model(SAM)来获取查询和参考图像的对象掩码。每个对象掩码与整个图像的特征图相乘,以获取对象特征图。接下来,我们提出了一个对象匹配模型(OMM)来匹配查询和参考图像中的对象。为了促进对象匹配,我们进一步提出了一个动态通道图注意力(DCGA)模块,将每个对象视为关键点,并将其特征图转换为特征向量。最后,基于对象匹配关系,我们提出了一个异常度量模型(AMM),用于检测具有逻辑异常的对象。对象中的结构异常也可以被检测出来。我们使用各种基准测试验证了我们提出的SAM-LAD,包括工业数据集(MVTec Loco AD,MVTec AD)和逻辑数据集(DigitAnatomy)。广泛的实验结果表明,SAM-LAD优于现有的SoTA方法,特别是在检测逻辑异常方面。
- 图表
- 解决问题SAM-LAD: 一个用于任何场景的逻辑异常检测的零样本插拔框架
- 关键思路提出了一种SAM-LAD框架,使用预训练的骨干网络获取查询图像的特征图,并通过最近邻搜索检索参考图像及其对应的特征图。使用Segment Anything Model(SAM)获取查询和参考图像的对象掩码,并将每个对象掩码乘以整个图像的特征图以获取对象特征图。然后,提出了一个对象匹配模型(OMM)来匹配查询和参考图像中的对象,并提出了动态通道图注意力(DCGA)模块,以便于对象匹配。最后,基于对象匹配关系,提出了一种逻辑异常测量模型(AMM)来检测具有逻辑异常的对象。
- 其它亮点SAM-LAD在工业数据集(MVTec Loco AD、MVTec AD)和逻辑数据集(DigitAnatomy)上进行了验证,结果表明其在检测逻辑异常方面优于现有的SoTA方法。实验结果还表明,SAM-LAD在检测结构异常方面也很有效。
- 最近的相关研究包括:《Deep Anomaly Detection with Outlier Exposure》、《Variational Autoencoder for Deep Learning of Images, Labels and Captions》、《Anomaly Detection with Multiple-Hypotheses Predictions》等。
沙发等你来抢
去评论
评论
沙发等你来抢