- 简介最近多模态基础模型的进展在少样本异常检测方面树立了新的标准。本文探讨高质量的视觉特征是否足以与现有的最先进的视觉语言模型相媲美。我们通过将DINOv2适应于一次和少次异常检测来证实这一点,重点关注工业应用。我们展示了这种方法不仅可以与现有技术相媲美,甚至在许多场景中都可以超越它们。我们提出的仅基于视觉的方法AnomalyDINO基于补丁相似性,可以实现图像级别的异常预测和像素级别的异常分割。该方法在方法论上简单并且无需训练,因此不需要任何额外的数据进行微调或元学习。尽管它很简单,但AnomalyDINO在一次和少次异常检测方面取得了最先进的结果(例如,将MVTec-AD上的一次性AUROC从93.1%提高到96.6%)。减少的开销以及其出色的少样本性能使AnomalyDINO成为快速部署的有力候选,例如在工业背景下。
- 图表
- 解决问题本论文旨在探讨高质量视觉特征是否足以与现有的视觉-语言模型竞争,解决一次和少次异常检测问题,特别是在工业应用方面。
- 关键思路AnomalyDINO是一种基于补丁相似性的视觉异常检测方法,不需要额外的数据进行微调或元学习,是一种简单而有效的方法。
- 其它亮点AnomalyDINO在一次和少次异常检测方面取得了最先进的结果,例如在MVTec-AD上将一次的AUROC从93.1%提高到了96.6%。该方法不需要训练,实现了图像级别的异常预测和像素级别的异常分割。这种方法的优点是具有快速部署的能力,特别是在工业应用方面。
- 最近的相关研究包括使用视觉-语言模型进行异常检测,例如CLIP和ViLBERT。
沙发等你来抢
去评论
评论
沙发等你来抢