Illicit object detection in X-ray images using Vision Transformers

2024年03月27日
  • 简介
    非法物品检测是在多个高安全性场所进行的关键任务,包括机场、火车站、地铁和港口。每小时检查数千张X光图像的持续而繁琐的工作可能会对精神造成负担。因此,可以使用深度神经网络(DNN)自动化X光图像分析过程,提高效率并减轻安全人员的检查负担。相关文献中通常使用的神经架构是卷积神经网络(CNN),很少使用Vision Transformers(ViTs)。为了解决这一差距,本文对相关ViT架构在X光图像中非法物品检测方面进行了全面评估。本研究利用了Transformer和混合骨干,例如SWIN和NextViT,以及检测器,例如DINO和RT-DETR。结果表明,在低数据范围内,DINO Transformer检测器具有显着的准确性,YOLOv8具有令人印象深刻的实时性能,混合NextViT骨干非常有效。
  • 图表
  • 解决问题
    本文旨在评估视觉Transformer架构在X射线图像中检测非法物品的效果,探究其在低数据情况下的表现。
  • 关键思路
    本文使用Transformer和混合骨干,如SWIN和NextViT,以及检测器,如DINO和RT-DETR,对相关ViT架构进行了全面评估。结果表明,DINO Transformer检测器在低数据情况下具有显着的准确性,YOLOv8具有令人印象深刻的实时性能,NextViT混合骨干的效果显著。
  • 其它亮点
    本文实验设计充分,使用了多个数据集,开源了代码,为相关领域的研究提供了有价值的参考。值得深入研究的是,本文中使用的ViT架构在X射线图像中检测非法物品的效果较好,但在其他领域中的表现如何仍需要进一步探究。
  • 相关研究
    与本文相关的研究包括使用CNN架构进行非法物品检测的相关研究,如Faster R-CNN和YOLO系列。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论