- 简介我们介绍了MANTA,这是一个用于检测微小物体视觉-文本异常的数据集。 视觉部分包含超过137.3万张图像,涵盖38个物体类别,涉及五个典型领域,其中8.6万张图像被标记为异常,并附有像素级标注。每张图像都从五个不同的视角拍摄,以确保对物体的全面覆盖。文本部分包括两个子集:声明性知识,包含875个词汇,描述了不同领域和特定类别中的常见异常,详细解释了“是什么、为什么、如何”,包括原因和视觉特征;建构主义学习,提供了2000道难度各异的选择题,每道题都配有图像及相应的答案解释。我们还提出了一种视觉-文本任务的基线方法,并进行了广泛的基准测试实验,以评估在不同设置下先进方法的表现,突显了我们数据集的挑战性和有效性。
- 图表
- 解决问题MANTA旨在解决针对微小物体的视觉-文本异常检测问题,这是一个相对新颖且具有挑战性的任务,尤其是在处理跨多个领域和视角的异常检测时。
- 关键思路MANTA通过构建一个大规模的多模态数据集,结合图像和文本信息,提供了一个全面的解决方案。该数据集不仅包含大量的图像数据,还包含了详细的文本描述和构造性学习问题,有助于模型更好地理解异常的成因和特征。
- 其它亮点MANTA数据集具有以下亮点:1) 大规模图像数据,覆盖38个类别和五个典型领域;2) 8.6K张带有像素级标注的异常图像;3) 每个对象从五个不同视角拍摄,确保全面覆盖;4) 丰富的文本描述和构造性学习问题,包括875个描述常见异常的词汇和2000个选择题;5) 提供了基线模型和广泛的基准测试,展示了数据集的挑战性和有效性。此外,该数据集和部分代码已开源,为未来的研究提供了基础。
- 近年来,多模态异常检测领域有大量相关研究。例如,《Multimodal Anomaly Detection in Industrial Systems》探讨了工业系统中的多模态异常检测方法;《A Survey on Deep Learning for Anomaly Detection》综述了深度学习在异常检测中的应用;《Visual Anomaly Detection with Semantic Segmentation》提出了一种基于语义分割的视觉异常检测方法。MANTA在这些基础上进一步扩展,引入了更多的文本信息和构造性学习任务,提高了模型的理解能力。
沙发等你来抢
去评论
评论
沙发等你来抢