Pre-training on High Definition X-ray Images: An Experimental Study

2024年04月27日
  • 简介
    现有的基于X射线的预训练视觉模型通常是在相对较小规模的数据集上进行的(少于500k个样本),并且分辨率有限(例如224×224)。然而,自监督预训练大模型成功的关键在于大规模的训练数据,而在X射线图像领域保持高分辨率是解决各种难题疾病的有效保证。本文通过提出第一个基于高清晰度(1280×1280)X射线的预训练基础视觉模型,解决了这些问题,我们的模型基于我们新收集的大规模数据集,其中包含超过100万张X射线图像。我们的模型遵循掩码自编码器框架,该框架使用掩码处理后的标记作为输入,使用Transformer编码器-解码器网络重建掩码图像补丁。更重要的是,我们引入了一种新颖的上下文感知掩码策略,该策略利用胸部轮廓作为边界进行自适应掩码操作。我们在两个下游任务上验证了我们模型的有效性,包括X射线报告生成和疾病识别。广泛的实验表明,我们的预训练医学基础视觉模型在下游基准数据集上实现了可比甚至是新的最先进性能。本文的源代码和预训练模型将在https://github.com/Event-AHU/Medical_Image_Analysis上发布。
  • 图表
  • 解决问题
    本文旨在解决X光图像预训练模型数据集规模小、分辨率低的问题,提出了一种基于自编码器框架和上下文感知掩膜策略的高清晰度(1280x1280)X光图像预训练视觉模型,并在两个下游任务中验证了其有效性。
  • 关键思路
    本文提出了一种基于自编码器框架和上下文感知掩膜策略的高清晰度(1280x1280)X光图像预训练视觉模型,该模型采用Transformer编码器-解码器网络来重构掩膜图像块,利用胸部轮廓作为边界进行自适应掩膜操作。
  • 其它亮点
    本文的亮点包括:提出了高清晰度的X光图像预训练视觉模型,使用了超过100万张X光图像的大规模数据集,采用上下文感知掩膜策略,验证了模型在X光报告生成和疾病识别方面的有效性,提供了源代码和预训练模型。
  • 相关研究
    相关研究包括:使用深度学习方法进行X光图像预训练的研究,如CheXNet、MURA、Kaggle Chest X-ray等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论