Open-Vocabulary X-ray Prohibited Item Detection via Fine-tuning CLIP

2024年06月16日
  • 简介
    X光禁物品检测是安全检查的重要组成部分,随着最新法律的出台,禁止物品的类别不断增加。以往的研究都集中在封闭场景下,只能识别用于训练的已知类别,学习新类别往往需要耗费时间和人力,并导致应用受限。虽然视觉语言模型(如CLIP)的成功为开放集X光禁物品检测提供了新的视角,但直接将CLIP应用于X光领域会导致性能急剧下降,因为X光数据和预训练CLIP所用的通用数据之间存在领域差异。为了解决上述挑战,本文将基于蒸馏的开放词汇物体检测(OVOD)任务引入到X光安全检查领域,通过扩展CLIP以学习我们特定的X光领域的视觉表示,旨在检测超出检测器训练基础类别之外的新禁止物品类别。具体而言,我们提出了X光特征适配器,并将其应用于OVOD框架中的CLIP,以开发OVXD模型。X光特征适配器包含三个瓶颈架构的适配器子模块,简单而高效地将X光领域的新知识与原始知识集成,进一步弥合领域差距,促进X光图像和文本概念之间的对齐。在PIXray和PIDray数据集上进行的大量实验表明,所提出的方法在X光场景中检测新类别方面表现优于其他基线OVOD方法。它在PIXray和PIDray上的AP50分别达到21.0和27.8,比先前最佳结果分别提高了15.2和1.5个AP50。
  • 图表
  • 解决问题
    本文旨在解决X-ray安检中开放词汇目标检测的问题,即如何在训练时不需要繁琐的注释,能够识别新的禁止物品类别。
  • 关键思路
    本文提出了一种基于CLIP模型的X-ray特征适配器,用于学习X-ray领域的视觉表示,并在OVOD框架下开展开放词汇目标检测任务,以便检测超出基本类别范围的新禁止物品类别。
  • 其它亮点
    本文的实验结果表明,所提出的方法在PIXray和PIDray数据集上均表现出色,优于其他基线OVOD方法,并且比之前的最佳结果提高了15.2 AP50和1.5 AP50。
  • 相关研究
    在相关研究方面,近期的研究包括:“Open-Vocabulary Object Detection”和“Vision-Language Navigation”。
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论