CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios

2024年04月23日
  • 简介
    本文介绍了一种名为医学视觉语言预训练(Med-VLP)的方法,它能够建立医学图像的视觉内容和相关文本描述之间的联系。现有的Med-VLP方法主要关注描绘单个身体部位的二维图像,尤其是胸部X线片。本文将Med-VLP的范围扩展到三维图像,具体针对全身场景,使用了一个包含CT图像和报告的多模态数据集。与二维图像相比,需要使用三维VLP来有效地捕捉三维成像中更为稀疏的基本语义。本文介绍了一种名为CT-GLIP(使用CT扫描的基于图像-语言的预训练)的新方法,它构建器官级别的图像-文本对,以增强多模态对比学习,将基于图像的视觉特征与精确的诊断文本对齐。此外,我们开发了一种异常字典,以增加多样化的对比对。我们的方法在一个包含44,011个器官级别的视觉-文本对的多模态CT数据集上进行训练,该数据集来自104个器官的17,702名患者。结果表明,我们的模型能够使用自然语言以零样本方式识别器官和异常。我们在一个包含1,130名患者的单独测试集上验证了CT-GLIP的性能,该测试集侧重于7个器官中最常见的16种异常。实验结果表明,我们的模型在使用CNN和ViT架构的零样本和微调情景下,相对于标准CLIP框架表现出更好的性能。
  • 图表
  • 解决问题
    本文试图扩展Med-VLP的范围,将其应用于3D全身CT图像和相关文本描述的匹配,提高医学图像的语义理解能力。
  • 关键思路
    文章提出了一种新的方法CT-GLIP,通过构建器官级别的图像-文本对来增强多模态对比学习,实现了基于自然语言的器官和异常检测。
  • 其它亮点
    文章使用了一个包含44,011个图像-文本对的多模态CT数据集,验证了CT-GLIP在零样本和微调情况下,使用CNN和ViT架构在7个器官的16种最常见异常检测中的卓越性能。此外,文章还开发了异常词典来增强对比学习的多样性对比对。
  • 相关研究
    在相关研究方面,最近的工作主要集中在2D医学图像上的Med-VLP。例如,'Unicoder-VL: A Universal Encoder for Vision-Language Tasks'和'Learning Transferable Visual Models From Natural Language Supervision'等。
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论