- 简介文本引导的医学图像分割通过利用临床报告作为辅助信息,提升了分割精度。然而,现有方法通常依赖未对齐的图像与文本编码器,因而需要复杂的交互模块来实现多模态融合。尽管CLIP提供了预对齐的多模态特征空间,但其在医学影像中的直接应用受限于三个主要问题:细粒度解剖结构的保留不足、对复杂临床描述的建模能力有限,以及领域特定的语义错位。为应对这些挑战,我们提出了TGC-Net,一种基于CLIP的框架,专注于参数高效且面向特定任务的适应性改进。具体而言,该框架引入了语义-结构协同编码器(SSE),通过为CLIP的ViT添加一个CNN分支以实现多尺度结构优化;设计了领域增强文本编码器(DATE),将基于大语言模型提取的医学知识注入文本编码过程;同时还包含视觉-语言校准模块(VLCM),在统一的特征空间中优化跨模态对应关系。在胸部X光和胸部CT共五个数据集上的实验表明,TGC-Net以显著更少的可训练参数达到了最先进的性能,尤其在具有挑战性的基准测试中取得了明显的Dice系数提升。
-
- 图表
- 解决问题论文旨在解决现有文本引导的医学图像分割方法中图像与文本编码器未对齐的问题,以及直接应用CLIP模型到医学领域时面临的三大挑战:细粒度解剖结构保留不足、复杂临床描述建模能力弱、医学域语义错位。这是一个在多模态医学图像分析中日益重要且尚未完全解决的问题。
- 关键思路提出TGC-Net,基于CLIP框架进行任务专用的参数高效适配。核心创新包括:1)引入CNN分支增强ViT的语义-结构协同编码器(SSE),实现多尺度结构细化;2)通过大语言模型注入医学知识的领域增强文本编码器(DATE);3)设计视觉-语言校准模块(VLCM)在统一特征空间优化跨模态对齐。相比以往复杂的融合模块设计,该方法利用预对齐的CLIP空间并进行轻量级定制,提升了性能与效率。
- 其它亮点在五个公开数据集(涵盖胸部X光与胸CT模态)上验证了方法的有效性,实现了最先进的分割性能,尤其在具有挑战性的基准上Dice系数显著提升,同时训练参数更少。实验设计严谨,跨模态、跨设备泛化能力强。论文强调参数效率,符合低资源医疗场景需求。代码是否开源未明确提及,但其轻量化设计为后续临床部署提供了良好基础,未来可探索更多LLM驱动的知识注入方式及扩展至其他器官与疾病。
- 1. MedKLIP: Medical Vision-Language Pre-training via Kinship-aware Contrastive Learning 2. RadCLIP: Towards Radiology Report Generation with Contrastive Language-Image Pretraining 3. LORA-VTP: Parameter-Efficient Visual Textual Pretraining for Medical Image-Text Tasks 4. PromptMT: Prompt Learning for Multimodal Medical Segmentation 5. CLIP-Driven Unified Modality Embedding for Medical Image Segmentation
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流