Illicit object detection in X-ray images using Vision Transformers

简介

非法物品检测是在多个高安全性场所进行的关键任务，包括机场、火车站、地铁和港口。每小时检查数千张X光图像的持续而繁琐的工作可能会对精神造成负担。因此，可以使用深度神经网络（DNN）自动化X光图像分析过程，提高效率并减轻安全人员的检查负担。相关文献中通常使用的神经架构是卷积神经网络（CNN），很少使用Vision Transformers（ViTs）。为了解决这一差距，本文对相关ViT架构在X光图像中非法物品检测方面进行了全面评估。本研究利用了Transformer和混合骨干，例如SWIN和NextViT，以及检测器，例如DINO和RT-DETR。结果表明，在低数据范围内，DINO Transformer检测器具有显着的准确性，YOLOv8具有令人印象深刻的实时性能，混合NextViT骨干非常有效。
图表
解决问题

本文旨在评估视觉Transformer架构在X射线图像中检测非法物品的效果，探究其在低数据情况下的表现。
关键思路

本文使用Transformer和混合骨干，如SWIN和NextViT，以及检测器，如DINO和RT-DETR，对相关ViT架构进行了全面评估。结果表明，DINO Transformer检测器在低数据情况下具有显着的准确性，YOLOv8具有令人印象深刻的实时性能，NextViT混合骨干的效果显著。
其它亮点

本文实验设计充分，使用了多个数据集，开源了代码，为相关领域的研究提供了有价值的参考。值得深入研究的是，本文中使用的ViT架构在X射线图像中检测非法物品的效果较好，但在其他领域中的表现如何仍需要进一步探究。
相关研究

与本文相关的研究包括使用CNN架构进行非法物品检测的相关研究，如Faster R-CNN和YOLO系列。

Illicit object detection in X-ray images using Vision Transformers

评论