Continual Panoptic Perception: Towards Multi-modal Incremental Interpretation of Remote Sensing Images

简介

本文提出了一种统一的持续学习模型——连续全景感知（CPP），可以覆盖遥感图像中的像素级分类、实例级分割和图像级感知等多个任务，解决了当前持续学习方法主要关注单一任务以及由于缺乏旧数据而导致的灾难性遗忘和语义漂移等问题。具体来说，本文提出了一种协作交叉模态编码器（CCE），用于提取输入图像特征，支持像素分类和标题生成等任务。为了继承旧模型的知识而不需要示例记忆，本文提出了一种任务交互知识蒸馏（TKD）方法，利用交叉模态优化和任务非对称伪标签（TPL）来减轻灾难性遗忘。此外，本文还提出了一种联合优化机制，实现了端到端的多模态全景感知。实验结果表明，所提出的模型在细粒度全景感知数据集上具有很好的效果，并证明联合优化可以提高子任务持续学习效率，全景质量相对提高了13%以上。
图表
解决问题

论文旨在提出一种统一的持续学习模型，以解决遥感图像普遍解释中的持续学习问题，包括灾难性遗忘和语义漂移。
关键思路

论文提出了一种协作跨模态编码器（CCE）来提取输入图像特征，支持像素分类和字幕生成同步。同时，提出了任务交互知识蒸馏（TKD）方法，利用跨模态优化和任务不对称伪标签（TPL）来减轻灾难性遗忘。此外，还提出了联合优化机制来实现端到端的多模态全景感知。
其它亮点

论文使用了细粒度全景感知数据集进行实验，证明了所提出模型的有效性，并证明联合优化可以提高子任务持续学习效率，全景质量相对提高了13％以上。
相关研究

最近的相关研究包括《Lifelong Learning with Dynamically Expandable Networks》、《Continual Learning for Object Detection with Knowledge Distillation》等。

Continual Panoptic Perception: Towards Multi-modal Incremental Interpretation of Remote Sensing Images

评论