Progressive Alignment with VLM-LLM Feature to Augment Defect Classification for the ASE Dataset

2024年04月08日
  • 简介
    传统的缺陷分类方法面临两个障碍:(1) 训练数据不足且数据质量不稳定。收集足够的缺陷样本既昂贵又耗时,导致数据集方差增大,增加了识别和学习的难度。(2) 过度依赖视觉模态。当给定数据集中所有缺陷类别的图像模式和纹理单调相同时,传统AOI系统的性能无法保证。在图像质量因机械故障而降低或缺陷信息本质上难以辨别的情况下,深度模型的性能也无法保证。一个主要问题是,“在这两个问题同时出现时如何解决?”可行的策略是探索数据集中的另一个特征,并结合杰出的视觉-语言模型(VLM)和大型语言模型(LLM)及其惊人的零-shot能力。在这项工作中,我们提出了特殊的ASE数据集,包括记录在图像上的丰富数据描述,用于缺陷分类,但缺陷特征难以直接学习。其次,我们提出了针对ASE数据集的VLM-LLM提示,以激活图像中的额外模态特征以提高性能。然后,我们设计了新颖的渐进特征对齐(PFA)块,以细化图像-文本特征,以减轻少样本情况下对齐的困难。最后,我们提出的跨模态注意力融合(CMAF)模块可以有效地融合不同的模态特征。实验结果已经证明了我们的方法在ASE数据集的几种缺陷分类方法中的有效性。
  • 作者讲解
  • 图表
  • 解决问题
    如何在训练数据不足且数据质量不稳定的情况下,提高缺陷分类的准确率?
  • 关键思路
    利用视觉-语言模型和大型语言模型的零样本能力,探索数据集中的其他特征,并设计渐进式特征对齐和跨模态注意力融合模块,提高缺陷分类的准确率。
  • 其它亮点
    论文提出了ASE数据集,并记录了图像的丰富数据描述,用于缺陷分类。设计了渐进式特征对齐和跨模态注意力融合模块,提高了缺陷分类的准确率。实验结果表明,该方法在ASE数据集上的效果优于其他缺陷分类方法。
  • 相关研究
    相关研究包括:基于深度学习的缺陷检测方法、使用视觉-语言模型的多模态学习、使用大型语言模型的零样本学习等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问