PathAlign: A vision-language model for whole slide images in histopathology

向作者提问

NEW

简介

组织病理学图像的显微镜解释是许多重要诊断和治疗决策的基础。虽然视觉语言建模的进展为这些图像的分析提供了新的机会，但全幅切片图像（WSIs）的千亿级规模引入了独特的挑战。此外，病理报告同时突出小区域的关键发现，同时还聚合了多个切片的解释，往往使得创建健壮的图像-文本对变得困难。因此，病理报告仍然是计算病理学中一个大部分未被开发的监督来源，大多数努力依赖于感兴趣区域的注释或补丁级别的自我监督。在这项工作中，我们使用WSIs和病理报告中的策划文本构建了基于BLIP-2框架的视觉语言模型。这使得可以利用共享的图像-文本嵌入空间的应用程序，例如文本或图像检索以找到感兴趣的病例，以及将WSI编码器与冻结的大型语言模型（LLM）集成以实现基于WSI的生成文本功能，例如报告生成或AI交互。我们利用一个包含超过350,000个WSIs和诊断文本对的去识别化数据集，涵盖了广泛的诊断、程序类型和组织类型。我们展示了病理学家评估使用WSI嵌入的文本生成和文本检索的结果，以及WSI分类和工作流程优先级（幻灯片级别的分流）的结果。模型生成的WSI文本被病理学家评为准确，平均78%的WSIs没有临床上显著的错误或遗漏。这项工作展示了语言对齐的WSI嵌入的激动人心的潜力能力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决计算病理学中的一个重要问题：如何利用病理报告中的文本信息对病理图像进行分析和诊断。同时，如何利用整张切片图像进行自我监督学习，以提高计算病理学的准确性和效率。
关键思路

本文提出了基于BLIP-2框架的视觉-语言模型，利用来自病理报告的文本信息与WSI图像进行训练，实现了共享图像-文本嵌入空间，从而可以进行文本或图像检索、病理报告生成等应用，同时利用WSI编码器与大型语言模型（LLM）进行整合，实现基于WSI的生成文本能力。
其它亮点

本文使用了一个包含350,000个WSI图像和诊断文本对的数据集，涵盖了多种诊断、程序类型和组织类型。实验结果表明，利用WSI嵌入进行文本生成和文本检索的效果良好，WSI分类和工作流程优化方面也取得了不错的成果。此外，本文提出的基于BLIP-2框架的视觉-语言模型也具有很好的可扩展性和适应性。
相关研究

近年来，计算病理学领域的相关研究不断涌现，如基于深度学习的病理图像分析、病理报告生成、病理图像检索等。例如，文章《Deep Learning-Based Histopathologic Assessment of Kidney Tissue》探索了基于深度学习的肾脏组织病理学评估方法；文章《Adversarial Generation of Training Examples: Applications to Moving Object Detection from Unmanned Aerial Vehicles》则利用对抗生成网络生成了一些模拟的无人机图像，用于训练目标检测模型。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问