MMEarth: Exploring Multi-Modal Pretext Tasks For Geospatial Representation Learning

2024年05月04日
  • 简介
    遥感数据中未标记数据的数量很大,但许多重要应用缺乏标记的训练数据。然而,遥感数据提供了独特的机会,可以根据地理位置和时间自动配对来自不同模态和传感器的数据,几乎不需要人力成本。我们抓住这个机会,在全球范围内创建了一个多样化的多模态预训练数据集。利用这个包含120万个位置的新语料库,我们提出了一种多预文本掩蔽自编码器(MP-MAE)方法,学习光学卫星图像的通用表示。我们的方法建立在ConvNeXt V2架构上,这是一个完全卷积的掩蔽自编码器(MAE)。通过一系列多模态预文本任务,我们证明了我们的MP-MAE方法在图像分类和语义分割等多个下游任务中优于在ImageNet上预训练和在特定领域的卫星图像上预训练的MAE。我们发现,与仅在光学卫星图像上进行预训练相比,多模态预训练显着提高了线性探测性能,例如在BigEarthNet上提高了4pp,在So2Sat上提高了16pp。我们表明,这也导致更好的标签和参数效率,这是全球规模应用中至关重要的方面。
  • 图表
  • 解决问题
    论文旨在解决缺乏标记训练数据的重要应用程序的问题,提出了一种利用地理位置和时间自动匹配不同模态和传感器数据的方法来创建全球多模态预训练数据集,以学习用于光学卫星图像的通用表示。
  • 关键思路
    论文提出了一种Multi-Pretext Masked Autoencoder (MP-MAE)方法,利用1.2百万个位置的新语料库进行多模态预训练,通过一系列多模态预训练任务,展示了该方法在图像分类和语义分割等下游任务中的优越性。
  • 其它亮点
    论文的亮点包括使用全球多模态预训练数据集、提出了MP-MAE方法、展示了该方法在多个下游任务中的优越性、提高了线性探测性能和标签参数效率。
  • 相关研究
    最近的相关研究包括《Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics》、《Self-Supervised Learning of Pretext-Invariant Representations》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论