PathGen-1.6M: 1.6 Million Pathology Image-text Pairs Generation through Multi-agent Collaboration

2024年06月28日
  • 简介
    视觉语言模型(VLMs)如CLIP在病理学中引起了极大的关注,作为零样本图像分类和全幻灯片图像(WSI)分析等应用的支撑。此外,当与大型语言模型(LLMs)相结合时,它们可以作为视觉编码器支持更广泛的能力。目前,训练病理VLMs的当前努力依赖于来自PubMed、YouTube和Twitter等平台的病理图像文本对,这些数据提供了有限的、不可扩展的数据,通常具有次优的图像质量。在这项工作中,我们利用像TCGA这样的大规模WSI数据集提取了许多高质量的图像补丁。然后,我们训练了一个大型多模式模型来为这些图像生成标题,创建了包含160万个高质量图像标题对的数据集PathGen-1.6M。我们的方法涉及多个代理模型协作提取代表性的WSI补丁,生成和精炼标题,以获得高质量的图像文本对。广泛的实验表明,将这些生成的对与现有数据集集成,以训练病理学特定的CLIP模型PathGen-CLIP,显著增强了其分析病理图像的能力,在九个与病理学相关的零样本图像分类任务和三个WSI任务中都有显著的改进。此外,我们根据PathGen-1.6M构建了20万个指令调整数据,并将PathGen-CLIP与Vicuna LLM相结合,通过指令调整创建更强大的多模式模型。总体而言,我们提供了一条在病理学中生成高质量数据的可扩展路径,为下一代通用病理学模型铺平了道路。
  • 图表
  • 解决问题
    本论文旨在解决病理学图像分析中数据质量问题,并提出了一种使用大规模WSI数据集生成高质量图像-文本对的方法,以提高CLIP模型在病理学图像分析中的性能。
  • 关键思路
    本论文的关键思路是将大规模WSI数据集与多模态模型相结合,使用多个代理模型协同生成高质量的图像-文本对,并将其与现有数据集相结合来训练PathGen-CLIP模型,从而显著提高其在病理学图像分析中的性能。
  • 其它亮点
    本论文使用大规模WSI数据集生成了1.6M个高质量图像-文本对,并通过与现有数据集相结合训练PathGen-CLIP模型,显著提高了其在病理学图像分析中的性能。实验结果表明,与现有模型相比,PathGen-CLIP在9个病理学相关的零样本图像分类任务和3个WSI任务中均有大幅度的提升。此外,本论文还构建了200K个指令调整数据,并将PathGen-CLIP与Vicuna LLM相结合,创建了更强大的多模态模型。
  • 相关研究
    在最近的研究中,也有一些关于使用VLMs和LLMs进行病理学图像分析的工作,例如CLIP和Vicuna等模型。此外,也有一些研究集中于使用WSI数据集进行病理学图像分析,例如TCGA和CAMELYON16等数据集。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论