- 简介本文介绍了合成孔径雷达(SAR)自动目标识别(ATR)技术在军事应用中的重要性,以及视觉Transformer(ViT)在计算机视觉应用中的领先地位。然而,由于标准ViT需要大量训练数据才能很好地推广,且参数量大且计算密集,因此将其用于SAR ATR应用具有挑战性。本文提出了一种轻量级ViT模型,可通过利用移位补丁标记(SPT)和局部自注意(LSA)模块直接在小型数据集上进行训练,无需任何预训练。我们直接在SAR数据集上训练该模型,并评估其在SAR ATR应用中的有效性。我们称之为VTR(ViT for SAR ATR)的提出模型在三个广泛使用的SAR数据集(MSTAR,SynthWakeSAR和GBSAR)上进行了评估。此外,我们还提出了一种新型FPGA加速器,以实现实时SAR ATR应用的部署。
- 图表
- 解决问题本文试图解决使用Vision Transformers(ViTs)进行合成孔径雷达(SAR)自动目标识别(ATR)的挑战,即ViTs需要大量的训练数据来泛化,而标准SAR数据集的标记训练数据有限,ViTs的参数数量高且计算密集,难以在资源受限的SAR平台上部署。
- 关键思路本文提出了一种轻量级的ViT模型,可以直接在小型数据集上训练,而不需要预训练,利用Shifted Patch Tokenization(SPT)和Locality Self-Attention(LSA)模块。作者将该模型直接训练在标记训练数据有限的SAR数据集上,以评估其在SAR ATR应用中的有效性。
- 其它亮点本文提出的VTR模型在MSTAR、SynthWakeSAR和GBSAR三个广泛使用的SAR数据集上进行了评估,并提出了一种新颖的FPGA加速器,以实现在实时SAR ATR应用中的部署。作者还开源了他们的代码。
- 最近的相关研究包括使用CNN和其他深度学习模型进行SAR ATR的研究,以及使用ViT进行计算机视觉任务的研究。
沙发等你来抢
去评论
评论
沙发等你来抢