RAD-DINO: Exploring Scalable Medical Image Encoders Beyond Text Supervision

2024年01月19日
  • 简介
    语言监督的预训练已被证明是从图像中提取语义有意义特征的有价值方法,在计算机视觉和医学成像领域的多模态系统中作为基础元素。但是,由于文本中包含的信息受限,所得到的特征受到限制。这在医学成像中尤其成为问题,因为放射科医师的书面发现侧重于特定观察结果;这一挑战由于担心个人健康信息泄露而导致成对成像-文本数据的稀缺性而更加严重。在这项工作中,我们从根本上挑战了依赖语言监督学习通用生物医学成像编码器的普遍做法。我们介绍了RAD-DINO,这是一个仅在单模态生物医学成像数据上预训练的生物医学图像编码器,其在各种基准测试中获得了与最先进的生物医学语言监督模型相似或更高的性能。具体而言,所学习的表示质量是通过标准成像任务(分类和语义分割)和视觉-语言对齐任务(从图像生成文本报告)进行评估的。为了进一步展示语言监督的缺陷,我们表明RAD-DINO的特征与其他医疗记录(例如性别或年龄)的相关性比语言监督模型更好,这些记录通常在放射学报告中没有提到。最后,我们进行了一系列消融实验,确定了RAD-DINO性能的因素;值得注意的是,我们观察到RAD-DINO的下游性能随着训练数据的数量和多样性而扩展,证明了仅基于图像的监督是训练基础生物医学图像编码器的可扩展方法。
  • 图表
  • 解决问题
    论文旨在解决基于文本监督的医学图像编码器受限于文本信息的问题,提出了一种仅基于单模态医学图像数据进行预训练的编码器RAD-DINO,并验证其性能是否能够达到或超过当前基于语言监督的模型。
  • 关键思路
    论文提出了一种仅基于医学图像数据进行预训练的编码器RAD-DINO,通过在标准医学图像任务和视觉-语言对齐任务上的表现,证明其性能可与当前基于语言监督的模型相媲美,甚至更好。同时,通过实验发现,RAD-DINO的特征与医疗记录的相关性更高,这些记录通常不会在放射学报告中提到。
  • 其它亮点
    论文使用了多个数据集进行实验验证,并公开了其预训练模型和代码。实验结果表明,RAD-DINO的性能随着训练数据的数量和多样性的增加而提高。值得深入研究的是,RAD-DINO的预训练方法可能适用于其他领域的图像编码器。
  • 相关研究
    最近的相关研究包括使用多模态数据进行预训练的方法,如CLIP和ViT,以及使用不同类型的监督信号进行预训练的方法,如自监督和对抗性训练。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论