图片

 

大规模视觉基础模型在基于自然图像的视觉任务中取得了重大进展。得益于良好的可扩展性和表征能力,基于视觉Transformer (Vision Transformer, ViT) 的大规模视觉基础模型吸引了研究社区的广泛关注,并在多种视觉感知任务中广泛应用。然而,在遥感图像感知领域,大规模视觉模型的潜力尚未得到充分的探索。为此,我们首次提出面向遥感任务设计的大规模视觉基础模型[1],针对具有1亿参数的一般结构的ViT (Plain ViT),设计符合遥感图像特点的新型注意力机制,并据此研究大模型在遥感图像理解任务上的性能,包括图像分类、目标检测、语义分割等。

 

简单来说,为了更好地应对遥感图像所具有的大尺寸特性以及图像中的目标物体的朝向任意性,我们提出了一种新的旋转可变尺寸窗口的注意力(Rotated Varied-Size Window Attention, RVSA)来代替Transformer中的原始完全注意力(Vanilla Full Self-Attention),它可以从生成的不同窗口中提取丰富的上下文信息来学习更好的目标表征,并显著降低计算成本和内存占用。

 

实验表明,在检测任务上,我们提出的模型优于目前为止所有最先进的模型,其在DOTA-V1.0数据集上取得了81.24% mAP的最高精度。在下游分类和分割任务上,所提出的模型与现有先进方法相比性能具有很好的竞争力。进一步的分析实验表明该模型在计算复杂度、迁移学习的样本效率、可解释性等方面具有明显优势。

本工作由京东探索研究院、武汉大学以及悉尼大学联合完成,已被IEEE TGRS接收。

 

图片

 

01

研究背景

在遥感图像感知领域中,卷积神经网络(Convolutional Neural Network, CNN)是提取多尺度视觉特征最常用的模型。然而,卷积操作的感受野受限,这使得CNN很难关注长距离像素并提取全局上下文信息。为了解决这一问题,研究者提出使用自注意力(Self-Attention, SA)机制,通过计算图像中任意像素(特征)之间的相似性来灵活地建模特征之间的长距依赖关系。这一技术在计算机视觉领域的诸多任务上取得了良好的表现。其中,视觉Transformer模型采用了多头自注意力(Multi-Head Self-Attention, MHSA)的设计,在多个投影子空间中同时计算自注意力,使得提取的上下文信息更加多样化,从而进一步提高了特征的表征能力。

最早提出的视觉Transformer模型ViT [2]的结构采用了非层次化的一般结构设计,即在特征嵌入层之后重复堆叠Transformer编码器模块,其中每个模块输出的空间尺度、特征维度均相同。为了更好地使ViT适应下游任务,研究人员借用了CNN中的分层设计思想,并相应地设计了层次化视觉Transformer[3, 4]。这些模型通常使用大规模数据集并以有监督的方式进行预训练,然后再在下游任务的训练集上进行微调。最近,探索研究院通过比较不同的预训练方法和模型,将层次化视觉Transformer应用于遥感图像上并对其性能进行了详细的实证研究[5],验证了层次化视觉Transformer相比于CNN的优势以及使用大规模遥感场景标注数据集进行预训练的有效性。然而,是否一定要采用层次化结构的模型才能在遥感图像上获得较好性能呢?在本项研究中,我们首次尝试采用非层次化结构的模型并验证了其在一系列遥感图像感知任务上的优势和潜力。

具体来说,我们首先使用具有约一亿参数的Plain ViT模型和研究院最近提出的更先进的ViTAE 模型[6],并采用掩码图像建模算法MAE [7]在大规模遥感数据集MillionAID [8]上对其进行预训练,从而得到很好的初始化参数。

在预训练完成后,我们通过在下游任务相关数据集上进行微调,从而完成相应任务。由于下游任务的图像分辨率较大,为了降低视觉Transformer在下游任务上的计算成本和内存占用,研究者通常采用窗口注意力(Window-based Attention)机制来代替原始的完全注意力机制。然而,窗口注意力采用的固定窗口大小和位置会限制模型提取上下文信息的范围以及跨窗信息交互,从而影响模型的表征能力。

为此,探索研究院提出了一种名为可变大小窗口的注意力机制(Varied-Size Window Attention, VSA) [9]。它通过学习窗口的缩放和偏移因子,以使窗口的大小、形状和位置适应不同的图像内容,从而提高特征的表征能力,在多个视觉感知任务中获得了更好的性能。不同于自然图像中目标主要呈现上下方向的特点,遥感图像中的目标具有任意朝向,如图1所示。为了处理这种差异,我们进一步引入了一种可学习的旋转框机制,从而获得具有不同角度、大小、形状和位置的窗口,实现了提取更丰富的上下文新型的目标。

 

图片

图1:两种常见类别(桥梁和飞机)的自然图像(a)与遥感图像(b)的区别

 

基于ViT和ViTAE模型,我们将上述自注意力方法应用于三种遥感感知任务(场景分类、语义分割和目标检测),并开展了详细的实验评估,取得了很好的效果。我们希望这项研究能够填补遥感大模型领域的空白,并为遥感社区发展更大规模的Plain ViT模型提供有益的参考。

【论文】

 https://arxiv.org/abs/2208.03987

https://ieeexplore.ieee.org/document/9956816

 

【代码】

https://github.com/ViTAE-Transformer/Remote-Sensing-RVSA