- 简介组织病理学图像的显微镜解释是许多重要诊断和治疗决策的基础。虽然视觉语言建模的进展为这些图像的分析提供了新的机会,但全幅切片图像(WSIs)的千亿级规模引入了独特的挑战。此外,病理报告同时突出小区域的关键发现,同时还聚合了多个切片的解释,往往使得创建健壮的图像-文本对变得困难。因此,病理报告仍然是计算病理学中一个大部分未被开发的监督来源,大多数努力依赖于感兴趣区域的注释或补丁级别的自我监督。在这项工作中,我们使用WSIs和病理报告中的策划文本构建了基于BLIP-2框架的视觉语言模型。这使得可以利用共享的图像-文本嵌入空间的应用程序,例如文本或图像检索以找到感兴趣的病例,以及将WSI编码器与冻结的大型语言模型(LLM)集成以实现基于WSI的生成文本功能,例如报告生成或AI交互。我们利用一个包含超过350,000个WSIs和诊断文本对的去识别化数据集,涵盖了广泛的诊断、程序类型和组织类型。我们展示了病理学家评估使用WSI嵌入的文本生成和文本检索的结果,以及WSI分类和工作流程优先级(幻灯片级别的分流)的结果。模型生成的WSI文本被病理学家评为准确,平均78%的WSIs没有临床上显著的错误或遗漏。这项工作展示了语言对齐的WSI嵌入的激动人心的潜力能力。
-
- 图表
- 解决问题本文旨在解决计算病理学中的一个重要问题:如何利用病理报告中的文本信息对病理图像进行分析和诊断。同时,如何利用整张切片图像进行自我监督学习,以提高计算病理学的准确性和效率。
- 关键思路本文提出了基于BLIP-2框架的视觉-语言模型,利用来自病理报告的文本信息与WSI图像进行训练,实现了共享图像-文本嵌入空间,从而可以进行文本或图像检索、病理报告生成等应用,同时利用WSI编码器与大型语言模型(LLM)进行整合,实现基于WSI的生成文本能力。
- 其它亮点本文使用了一个包含350,000个WSI图像和诊断文本对的数据集,涵盖了多种诊断、程序类型和组织类型。实验结果表明,利用WSI嵌入进行文本生成和文本检索的效果良好,WSI分类和工作流程优化方面也取得了不错的成果。此外,本文提出的基于BLIP-2框架的视觉-语言模型也具有很好的可扩展性和适应性。
- 近年来,计算病理学领域的相关研究不断涌现,如基于深度学习的病理图像分析、病理报告生成、病理图像检索等。例如,文章《Deep Learning-Based Histopathologic Assessment of Kidney Tissue》探索了基于深度学习的肾脏组织病理学评估方法;文章《Adversarial Generation of Training Examples: Applications to Moving Object Detection from Unmanned Aerial Vehicles》则利用对抗生成网络生成了一些模拟的无人机图像,用于训练目标检测模型。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流