Progressive Alignment with VLM-LLM Feature to Augment Defect Classification for the ASE Dataset

简介

传统的缺陷分类方法面临两个障碍：(1) 训练数据不足且数据质量不稳定。收集足够的缺陷样本既昂贵又耗时，导致数据集方差增大，增加了识别和学习的难度。(2) 过度依赖视觉模态。当给定数据集中所有缺陷类别的图像模式和纹理单调相同时，传统AOI系统的性能无法保证。在图像质量因机械故障而降低或缺陷信息本质上难以辨别的情况下，深度模型的性能也无法保证。一个主要问题是，“在这两个问题同时出现时如何解决？”可行的策略是探索数据集中的另一个特征，并结合杰出的视觉-语言模型（VLM）和大型语言模型（LLM）及其惊人的零-shot能力。在这项工作中，我们提出了特殊的ASE数据集，包括记录在图像上的丰富数据描述，用于缺陷分类，但缺陷特征难以直接学习。其次，我们提出了针对ASE数据集的VLM-LLM提示，以激活图像中的额外模态特征以提高性能。然后，我们设计了新颖的渐进特征对齐（PFA）块，以细化图像-文本特征，以减轻少样本情况下对齐的困难。最后，我们提出的跨模态注意力融合（CMAF）模块可以有效地融合不同的模态特征。实验结果已经证明了我们的方法在ASE数据集的几种缺陷分类方法中的有效性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何在训练数据不足且数据质量不稳定的情况下，提高缺陷分类的准确率？
关键思路

利用视觉-语言模型和大型语言模型的零样本能力，探索数据集中的其他特征，并设计渐进式特征对齐和跨模态注意力融合模块，提高缺陷分类的准确率。
其它亮点

论文提出了ASE数据集，并记录了图像的丰富数据描述，用于缺陷分类。设计了渐进式特征对齐和跨模态注意力融合模块，提高了缺陷分类的准确率。实验结果表明，该方法在ASE数据集上的效果优于其他缺陷分类方法。
相关研究

相关研究包括：基于深度学习的缺陷检测方法、使用视觉-语言模型的多模态学习、使用大型语言模型的零样本学习等。

Progressive Alignment with VLM-LLM Feature to Augment Defect Classification for the ASE Dataset

提问交流

提问交流