- 简介非法物品检测是在多个高安全性场所进行的关键任务,包括机场、火车站、地铁和港口。每小时检查数千张X光图像的持续而繁琐的工作可能会对精神造成负担。因此,可以使用深度神经网络(DNN)自动化X光图像分析过程,提高效率并减轻安全人员的检查负担。相关文献中通常使用的神经架构是卷积神经网络(CNN),很少使用Vision Transformers(ViTs)。为了解决这一差距,本文对相关ViT架构在X光图像中非法物品检测方面进行了全面评估。本研究利用了Transformer和混合骨干,例如SWIN和NextViT,以及检测器,例如DINO和RT-DETR。结果表明,在低数据范围内,DINO Transformer检测器具有显着的准确性,YOLOv8具有令人印象深刻的实时性能,混合NextViT骨干非常有效。
- 图表
- 解决问题本文旨在评估视觉Transformer架构在X射线图像中检测非法物品的效果,探究其在低数据情况下的表现。
- 关键思路本文使用Transformer和混合骨干,如SWIN和NextViT,以及检测器,如DINO和RT-DETR,对相关ViT架构进行了全面评估。结果表明,DINO Transformer检测器在低数据情况下具有显着的准确性,YOLOv8具有令人印象深刻的实时性能,NextViT混合骨干的效果显著。
- 其它亮点本文实验设计充分,使用了多个数据集,开源了代码,为相关领域的研究提供了有价值的参考。值得深入研究的是,本文中使用的ViT架构在X射线图像中检测非法物品的效果较好,但在其他领域中的表现如何仍需要进一步探究。
- 与本文相关的研究包括使用CNN架构进行非法物品检测的相关研究,如Faster R-CNN和YOLO系列。
沙发等你来抢
去评论
评论
沙发等你来抢