ChangeViT: Unleashing Plain Vision Transformers for Change Detection

2024年06月18日
  • 简介
    遥感图像中的变化检测对于追踪地表环境变化至关重要。尽管视觉变换器(ViTs)在许多计算机视觉应用中作为骨干网络取得了成功,但由于其强大的特征提取能力,卷积神经网络(CNN)在变化检测中仍然占主导地位。本文研究揭示了ViTs在识别大规模变化方面的独特优势,这是CNN无法达到的能力。基于这一认识,我们引入了ChangeViT框架,采用普通的ViT骨干网络来增强大规模变化的性能。该框架还配备了一个细节捕捉模块,用于生成详细的空间特征,以及一个特征注入器,用于将细粒度的空间信息高效地整合到高级语义学习中。特征整合确保ChangeViT在检测大规模变化和捕捉细节方面都表现出色,提供了全面的不同尺度的变化检测。ChangeViT在三个流行的高分辨率数据集(即LEVIR-CD、WHU-CD和CLCD)和一个低分辨率数据集(即OSCD)上均取得了最先进的性能,这突显了普通ViTs在变化检测中的潜力。此外,全面的定量和定性分析验证了引入模块的功效,巩固了我们方法的有效性。源代码可在https://github.com/zhuduowang/ChangeViT上获得。
  • 图表
  • 解决问题
    本论文试图解决遥感图像变化检测中的大尺度变化识别问题,验证使用Vision Transformer(ViT)作为骨干网络在该任务中的优势。
  • 关键思路
    本论文提出了ChangeViT框架,采用纯ViT骨干网络,并结合细节捕获模块和特征注入器,以提高大尺度变化的性能。其中,细节捕获模块生成详细的空间特征,特征注入器有效地将细粒度空间信息整合到高级语义学习中,以确保ChangeViT在检测大尺度变化和捕获细节方面表现出色。
  • 其它亮点
    本论文在LEVIR-CD、WHU-CD、CLCD和OSCD四个数据集上实现了最先进的性能,证明了使用纯ViT骨干网络在遥感图像变化检测中的潜力。此外,通过详细的定量和定性分析,验证了引入的模块的有效性。
  • 相关研究
    在遥感图像变化检测领域,之前的研究多采用卷积神经网络(CNNs)作为骨干网络,使用不同的方法进行改进。例如,FC-DenseNet、ResNet、UNet等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论