Customizing Visual-Language Foundation Models for Multi-modal Anomaly Detection and Reasoning

2024年03月17日
  • 简介
    异常检测在各种工业场景中都非常重要,包括识别生产线上的异常模式和检测制造缺陷以进行质量控制。现有技术往往专门针对单个场景,缺乏通用性。本研究旨在开发一个通用的异常检测模型,适用于多种场景。为了实现这一目标,我们将具有广泛知识和强大推理能力的通用视觉语言基础模型定制为异常检测器和推理器。具体而言,我们引入了一种多模态提示策略,将专家的领域知识作为条件来指导模型。我们的方法考虑了多种多模态提示类型,包括任务描述、类别上下文、正常规则和参考图像。此外,我们将多模态输入表示统一为2D图像格式,实现多模态异常检测和推理。我们的初步研究表明,将视觉和语言提示作为模型定制的条件可以提高异常检测性能。定制模型展示了在不同数据模态(如图像和点云)中检测异常的能力。定性案例研究进一步突出了异常检测和推理能力,特别是针对多对象场景和时间数据。我们的代码可在https://github.com/Xiaohao-Xu/Customizable-VLM上获得。
  • 图表
  • 解决问题
    开发一种通用的异常检测模型,适用于多种场景,解决现有技术在通用性方面的不足。
  • 关键思路
    将通用视觉语言基础模型进行定制,加入领域专家的知识作为条件来指导模型,采用多模态提示策略,将多模态输入表示统一为2D图像格式,实现多模态异常检测和推理。
  • 其它亮点
    实验结果表明,将视觉和语言提示作为模型定制的条件可以提高异常检测性能;定制的模型可以跨越不同的数据模态,包括图像和点云;在多物体场景和时间数据方面,该模型具有很强的异常检测和推理能力。代码已在Github上开源。
  • 相关研究
    最近的相关研究包括:1. "Anomaly Detection in Industrial IoT: The State-of-the-Art";2. "A Survey of Deep Learning for Anomaly Detection";3. "A Review of Unsupervised Anomaly Detection Techniques for Time Series"。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论