- 简介零样本异常检测(ZSAD)是一种新兴的异常检测(AD)范式。与传统的无监督AD设置需要大量正常样本训练模型不同,ZSAD更适用于处理数据受限的真实场景。最近,多模态大语言模型(MLLMs)在各种视觉任务中展示了革命性的推理能力。然而,由于缺乏相应的数据集和基准测试,图像异常的推理仍处于探索不足的状态。为了促进AD和推理领域的研究,我们建立了首个视觉指令调优数据集Anomaly-Instruct-125k以及评估基准VisA-D&R。通过使用我们的基准进行研究,我们发现当前的MLLMs如GPT-4o无法准确检测和描述图像中的细粒度异常细节。为了解决这一问题,我们提出了Anomaly-OneVision(Anomaly-OV),这是第一个专门用于ZSAD和推理的视觉助手。受人类在视觉检查中的行为启发,Anomaly-OV采用了一种“两次查看特征匹配”(LTFM)机制,以自适应地选择和强调异常视觉标记。广泛的实验表明,Anomaly-OV在检测和推理方面都显著优于先进的通用模型。我们还提供了医学和3D AD方面的扩展研究。项目页面链接:https://xujiacong.github.io/Anomaly-OV/
- 图表
- 解决问题该论文试图解决在数据受限的真实世界场景中进行零样本异常检测(ZSAD)的问题,特别是当前多模态大语言模型(MLLMs)在图像异常检测和描述方面的能力不足。这是一个相对新颖的问题,特别是在结合视觉指令微调数据集和评估基准来提升模型对细粒度异常细节的检测能力方面。
- 关键思路关键思路是通过引入一个新的视觉指令微调数据集Anomaly-Instruct-125k和评估基准VisA-D&R,开发出首个专门用于ZSAD和推理的视觉助手Anomaly-OneVision(Anomaly-OV)。该模型借鉴了人类视觉检查行为,采用Look-Twice Feature Matching (LTFM)机制,能够自适应地选择和强调异常视觉标记,从而显著提高了异常检测和推理的准确性。
- 其它亮点该研究的主要亮点包括:1) 建立了首个用于ZSAD的视觉指令微调数据集和评估基准;2) 提出了Anomaly-OV模型,其在检测和描述图像中的细微异常方面表现出色;3) 提供了医疗和3D异常检测的扩展应用;4) 项目代码和数据集已开源,便于后续研究者复现和改进。未来可以进一步探索在更多领域中的应用,如医学影像、自动驾驶等。
- 最近在这个领域相关的研究包括:1) 使用生成对抗网络(GANs)进行异常检测;2) 利用深度学习技术进行无监督异常检测;3) 结合自然语言处理和计算机视觉的任务,如Visual Question Answering (VQA)。一些相关研究的论文标题有《Generative Adversarial Networks for Anomaly Detection》、《Deep Learning for Unsupervised Anomaly Detection》和《Multimodal Learning for Visual Question Answering》。
沙发等你来抢
去评论
评论
沙发等你来抢