Merlin: A Vision Language Foundation Model for 3D Computed Tomography

2024年06月10日
  • 简介
    在美国,每年进行的计算机断层扫描(CT)超过8500万次,其中约四分之一集中在腹部。考虑到当前放射科医生短缺,使用人工智能来减轻解读这些复杂影像研究的负担是一个重要的推动力。以往自动化医学图像解释的最新方法利用视觉语言模型(VLMs)。然而,目前的医学VLMs通常仅限于2D图像和短报告,并且不利用电子健康记录(EHR)数据进行监督。我们引入了Merlin-一个3D VLM,我们使用配对的CT扫描(15,331个CT的6百万张图像)、EHR诊断代码(1.8百万个代码)和放射学报告(6百万个标记)进行训练。我们对6种任务类型和752个单独任务对Merlin进行评估。未经调整的(现成的)任务包括零样本发现分类(31个发现)、表型分类(692个表型)和零样本跨模态检索(图像到发现和图像到印象),而模型适应的任务包括5年疾病预测(6种疾病)、放射学报告生成和3D语义分割(20个器官)。我们在一个测试集(5,137个CT)上进行内部验证,并在7,000个临床CT和两个公共CT数据集(VerSe,TotalSegmentator)上进行外部验证。除了这些临床相关的评估,我们还评估了各种网络架构和训练策略的效力,以显示Merlin相对于现有任务特定基线具有优势性能。我们得出数据缩放定律,以经验性地评估对于所需下游任务性能的训练数据需求。此外,与需要数百个GPU进行训练的传统VLM不同,我们在单个GPU上进行所有训练。
  • 图表
  • 解决问题
    论文旨在使用人工智能解决放射科医生短缺问题,提出了一种基于3D视觉语言模型的方法,用于自动解读CT扫描结果。
  • 关键思路
    论文提出了一种基于3D视觉语言模型的方法,使用CT扫描图像、电子病历诊断代码和放射学报告进行训练,以实现对6种任务类型和752个任务的自动化处理。
  • 其它亮点
    论文使用了大量的数据集进行实验,包括超过600万张CT扫描图像、180万个诊断代码和600万个放射学报告,并在内部和外部测试中验证了该方法的有效性。此外,该方法只需要使用单个GPU进行训练,而传统的视觉语言模型需要数百个GPU。
  • 相关研究
    最近的相关研究包括使用深度学习技术进行医学图像分析和自然语言处理的研究,如“Deep Learning in Medical Image Analysis”和“Natural Language Processing in Radiology: A Systematic Review”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论