Cross-Modal Conditioned Reconstruction for Language-guided Medical Image Segmentation

向作者提问

NEW

简介

最近的发展凸显了文本信息在增强医学视觉语义学习模型方面的潜力。然而，语言指导下的医学图像分割仍面临挑战。先前的研究采用了隐式和模糊的架构来嵌入文本信息。这导致分割结果与语言所表示的语义不一致，有时甚至显著偏离。为此，我们提出了一种新颖的跨模态条件重构语言指导下的医学图像分割（RecLMIS）方法，以明确捕捉跨模态交互作用，假设医学视觉特征和医学笔记之间对齐良好，可以有效地相互重构。我们引入了条件交互来自适应地预测感兴趣的补丁和单词。随后，它们被用作调节因素，用于相互重构以与医学笔记中描述的区域对齐。广泛的实验表明，我们的RecLMIS优越性，超过公开可用的MosMedData+数据集上的LViT 3.74％ mIoU，并在我们的QATA-CoV19数据集上实现了1.89％ mIoU的跨域测试平均增加。同时，我们实现了参数数量的相对减少20.2％和计算负载的降低55.5％。代码将在https://github.com/ShashankHuang/RecLMIS上提供。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决语言引导的医学图像分割中存在的交叉模态一致性问题。以前的工作使用隐式和模糊的架构来嵌入文本信息，导致分割结果与语言所表示的语义不一致，甚至明显偏离。本文提出了一种新的跨模态条件重建方法，以明确捕获跨模态交互，假设医学视觉特征和医学笔记能够有效地相互重建，从而对齐医学笔记中描述的区域。
关键思路

本文的关键思路是通过条件重建方法来实现跨模态交互，以对齐医学笔记中描述的区域，从而解决语言引导的医学图像分割中存在的交叉模态一致性问题。
其它亮点

本文的亮点包括：1. 提出了一种新的跨模态条件重建方法，以明确捕获跨模态交互，解决语言引导的医学图像分割中存在的交叉模态一致性问题；2. 实验结果表明，与现有方法相比，本文的方法在MosMedData+数据集上的mIoU表现优越，且在QATA-CoV19数据集上实现了平均1.89％的mIoU增加；3. 本文的方法在参数数量和计算负载上都有较大的优势；4. 本文提供了开源代码。
相关研究

在医学图像分割领域的相关研究包括：1. P. Wang等人的“U-Net++: A Nested U-Net Architecture for Medical Image Segmentation”；2. H. Chen等人的“Synergistic Image and Feature Adaptation: Towards Cross-Modality Domain Adaptation for Medical Image Segmentation”；3. Y. Zhang等人的“Deep Learning Based Multi-modal Fusion for Medical Image Segmentation: Recent Advances and Future Directions”。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问