MedPix 2.0: A Comprehensive Multimodal Biomedical Dataset for Advanced AI Applications

2024年07月03日
  • 简介
    在医疗领域开发人工智能应用的兴趣日益增长,但由于隐私问题,高质量数据集匮乏。此外,最近多模式大语言模型(MLLM)的兴起需要多模式医学数据集,其中将临床报告和发现附加到相应的CT或MR扫描上。本文介绍了构建数据集MedPix 2.0的整个工作流程。从广为人知的多模式数据集MedPix®开始,该数据集主要用于医生、护士和医学生的继续医学教育,开发了半自动化管道来提取视觉和文本数据,然后进行手动修复程序,去除噪声样本,从而创建了一个MongoDB数据库。除了数据集,我们还开发了一个GUI,旨在有效地浏览MongoDB实例,并获取原始数据,以便轻松用于训练和/或微调MLLM。为了加强这一点,我们还提出了一个基于MedPix 2.0训练的基于CLIP的模型,用于扫描分类任务。
  • 图表
  • 解决问题
    本论文旨在解决医疗领域人工智能应用中数据集质量不高的问题,提出了建立多模态医学数据集MedPix 2.0的方法。
  • 关键思路
    通过对现有的MedPix数据集进行半自动化的图像和文本数据提取,并进行手动筛选,建立了一个MongoDB数据库。同时,开发了一个GUI以便于浏览数据库并获取原始数据用于训练和微调多模态大语言模型。此外,还提出了一种基于CLIP的模型用于扫描分类任务。
  • 其它亮点
    论文提出的MedPix 2.0数据集具有多模态性质,可以用于训练和微调多模态大语言模型。同时,作者还开发了一个GUI以便于浏览数据库。论文使用了现有的MedPix数据集,但通过升级和筛选提高了数据集的质量。作者还提出了一种基于CLIP的模型用于扫描分类任务。
  • 相关研究
    近期相关研究包括:1)使用自然语言处理技术处理医学文本数据的研究;2)使用深度学习方法处理医学图像数据的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论