Diffusion-RSCC: Diffusion Probabilistic Model for Change Captioning in Remote Sensing Images

简介

遥感图像变化字幕生成（RSICC）旨在生成类人语言，描述双时相遥感图像对之间的语义变化。它提供了有关环境动态和土地管理的有价值的见解。与传统的变化字幕任务不同，RSICC不仅涉及在不同模态之间检索相关信息和生成流畅的字幕，还涉及减轻像素级差异对地形变化定位的影响。由于长时间跨度引起的像素问题会降低生成字幕的准确性。受扩散模型显着的生成能力的启发，我们提出了一种概率扩散模型用于解决RSICC中的上述问题。在训练过程中，我们构建了一个噪声预测器，以跨模态特征为条件，学习从真实字幕分布到标准高斯分布的分布，以进行马尔可夫链计算。同时，设计了跨模式融合和堆叠自注意模块，用于噪声预测器的反向过程。在测试阶段，经过良好训练的噪声预测器有助于估计分布的均值，并逐步生成变化字幕。对LEVIR-CC数据集进行的广泛实验证明了我们的Diffusion-RSCC及其各个组件的有效性。定量结果展示了在传统和新增指标上，相对于现有方法的优越性能。代码和材料将在https://github.com/Fay-Y/Diffusion-RSCC上提供。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决遥感图像变化描述中存在的像素级差异对地形变化定位精度的影响问题，提出了一种基于概率扩散模型的远程感知图像变化描述方法。
关键思路

本文提出的Diffusion-RSCC方法中，通过构建一个噪声预测器来学习从真实的描述分布到标准高斯分布的分布，并在测试阶段通过噪声预测器逐步生成变化描述。
其它亮点

本文的实验结果表明Diffusion-RSCC方法在LEVIR-CC数据集上表现优异，相比现有方法在传统和新的评价指标上都有更好的性能。此外，作者还提供了代码和材料，并指出了一些值得深入研究的方向。
相关研究

近年来，在遥感图像变化描述领域，还有一些相关的研究，如《Change Captioning with Mask-guided Contrastive Learning》、《A Dual-Stream Network for Change Captioning in Remotely Sensed Images》等。

Diffusion-RSCC: Diffusion Probabilistic Model for Change Captioning in Remote Sensing Images

提问交流

提问交流