CheXpert Plus: Augmenting a Large Chest X-ray Dataset with Text Radiology Reports, Patient Demographics and Additional Image Formats

2024年05月29日
  • 简介
    自从五年前发布了原始的CheXpert论文以来,CheXpert已成为最广泛使用和引用的临床AI数据集之一。视觉语言模型的出现引发了对与CheXpert图像相关的报告分享的需求的增加,以及AI公平性研究人员对获取人口统计数据的日益关注。为了解决这个问题,CheXpert Plus作为一种新的放射学数据源集合,公开提供以增强放射学领域所有后续机器学习任务的规模、性能、鲁棒性和公平性。CheXpert Plus是放射学领域公开发布的最大的文本数据集,总共包含3600万个文本标记,其中包括1300万个印象标记。据我们所知,它代表了放射学领域最大的文本去识别努力,几乎有100万个PHI跨度被匿名化。这是放射学领域第二次发布大规模的英语配对数据集,从而首次实现了跨机构规模训练。所有报告都与DICOM格式的高质量图像配对,并附有许多涵盖各种临床和社会经济群体、以及许多病理标签和RadGraph注释的图像和患者元数据。我们希望这个数据集将推动AI模型的研究,进一步帮助放射科医生并改善医疗保健。数据可在以下网址获取:https://stanfordaimi.azurewebsites.net/datasets/5158c524-d3ab-4e02-96e9-6ee9efc110a1。模型可在以下网址获取:https://github.com/Stanford-AIMI/chexpert-plus。
  • 图表
  • 解决问题
    本论文旨在提供一个新的、公开可用的放射学数据集CheXpert Plus,以解决当前视觉语言模型和AI公平性研究中的需求,同时提高放射学机器学习模型的扩展性、性能、鲁棒性和公平性。
  • 关键思路
    CheXpert Plus是一个包含3600万个文本标记的数据集,其中包括1300万个印象标记,是公开发布的最大的放射学文本数据集之一。该数据集是放射学中最大的文本去识别数据集之一,几乎有100万个PHI跨度被匿名化。它是放射学中第二个发布大规模英语配对数据集的数据集,使得跨机构的训练成为可能。
  • 其它亮点
    该数据集包括高质量的DICOM格式图像、丰富的图像和患者元数据,涵盖了各种临床和社会经济群体,以及许多病理标签和RadGraph注释。数据和模型都已公开发布。
  • 相关研究
    近年来,放射学领域中还有其他相关的研究,例如ChestX-ray8、MIMIC-CXR和PadChest等数据集。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论