- 简介计算病理学领域在开发特定任务预测模型和任务无关的自监督视觉编码器方面取得了显著进展。然而,尽管生成人工智能(AI)发展迅猛,但在构建面向病理学的通用多模态AI助手方面的研究还很有限。在这里,我们介绍了PathChat,一种使用内部开发的基础视觉编码器的视觉-语言通用AI助手,该编码器预先训练了来自超过100,000个患者病例的1亿个组织学图像和1.18万个病理图像-标题对。然后将视觉编码器与预先训练的大型语言模型相结合,并在超过250,000个不同疾病的视觉语言指令上进行了微调。我们将PathChat与几个多模态视觉语言AI助手以及驱动商用多模态通用AI助手ChatGPT-4的GPT4V进行了比较。当提供与组织学图像相关的临床背景时,PathChat在基于公开可用的不同组织来源和疾病模型的多项选择问题上实现了87%的诊断准确性。此外,使用开放式问题和人类专家评估,我们发现总体而言,PathChat对与病理学相关的各种查询产生了更准确和更受病理学家青睐的响应。作为一种交互式的通用视觉语言AI助手,可以灵活处理视觉和自然语言输入,PathChat在病理学教育、研究和人为决策中可能具有重要应用。
- 图表
- 解决问题本文旨在构建一个面向病理学的通用视觉语言AI助手,并验证其在病理学教育、研究和临床决策中的应用潜力。
- 关键思路本文提出了PathChat,一种基于自主预训练视觉编码器和预训练语言模型的通用视觉语言AI助手,用于人类病理学。通过使用超过1亿个组织学图像和118万个图像标题对的自主预训练视觉编码器,结合预训练的大型语言模型,并在超过25万个不同疾病的视觉语言指令上进行微调,实现了对多种组织来源和疾病模型的公开案例的87%的诊断准确性。
- 其它亮点实验结果显示,PathChat在回答各种与病理学相关的问题时,具有更高的准确性和病理学家更喜欢的响应。本文使用的数据集包括自主预训练视觉编码器的100万个图像标题对和来自超过10万个患者病例的1亿个组织学图像。本文提出的AI助手可以在病理学教育、研究和人机交互的临床决策中发挥重要作用。
- 最近的相关研究包括:1)使用深度学习算法进行病理图像分析的研究;2)使用自然语言处理技术进行病理学文本分析的研究;3)使用视觉语言模型进行病理学图像和文本分析的研究。
沙发等你来抢
去评论
评论
沙发等你来抢