Efficient Remote Sensing with Harmonized Transfer Learning and Modality Alignment

简介

随着视觉和语言预训练（VLP）的兴起，越来越多的下游任务采用了预训练后微调的范例。虽然这种范例已经在各种多模态下游任务中展现了潜力，但在遥感领域的实现遇到了一些障碍。具体来说，同模态嵌入倾向于聚集在一起，这阻碍了有效的迁移学习。为了解决这个问题，我们从统一的角度审视了多模态迁移学习在下游任务中的目标，并重新思考了基于三个不同目标的优化过程。我们提出了“和谐迁移学习和模态对齐（HarMA）”方法，该方法同时满足任务约束、模态对齐和单模态统一对齐，同时通过参数高效微调来最小化训练开销。值得注意的是，不需要外部数据进行训练，HarMA在遥感领域的两个流行的多模态检索任务中实现了最先进的性能。我们的实验表明，HarMA仅通过最小可调参数就能实现与完全微调模型相当甚至更优秀的性能。由于其简单性，HarMA可以集成到几乎所有现有的多模态预训练模型中。我们希望这种方法能够促进大型模型在广泛的下游任务中的高效应用，同时显著减少资源消耗。代码可在https://github.com/seekerhuang/HarMA上找到。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决遥感领域中，同模态嵌入聚类导致转移学习效率低下的问题。
关键思路

本文提出了一种名为HarMA的方法，通过同时满足任务约束、模态对齐和单模态一致性对齐三个不同的目标来重新设计优化过程，从而提高转移学习效率。
其它亮点

HarMA方法不需要外部数据训练，仅使用少量可调参数即可实现优于完全微调模型的性能表现。在两个流行的遥感领域多模态检索任务中，HarMA均取得了最先进的性能。代码已开源。
相关研究

近期的相关研究包括Visual and Language Pretraining (VLP)和遥感领域中的多模态检索任务，例如《Learning Cross-Modal Retrieval with Multi-Attention Fusion》和《Multimodal Fusion with Transformer for Remote Sensing Image Retrieval》。

Efficient Remote Sensing with Harmonized Transfer Learning and Modality Alignment

提问交流

提问交流