- 简介本文提出了一种名为全面病理语言图像预训练(CPLIP)的新的无监督技术,旨在增强组织病理学中图像和文本的对齐,以用于分类和分割等任务。该方法通过利用大量数据而无需基准注释来丰富视觉语言模型。CPLIP包括构建一个病理学特定的字典,使用语言模型为图像生成文本描述,并通过预训练模型检索每个文本片段的相关图像。然后使用一种多对多对比学习方法对模型进行微调,以在两种模态之间对齐复杂的相互关联的概念。在多个组织病理学任务中进行评估,CPLIP在零样本学习场景中显示出显着的改进,优于现有方法,同时在可解释性和鲁棒性方面设定更高的基准,为视觉语言模型在该领域的应用提供了更好的参考。为了鼓励进一步的研究和复制,CPLIP的代码可在GitHub上获得,网址为https://cplip.github.io/。
- 图表
- 解决问题论文旨在通过Comprehensive Pathology Language Image Pre-training (CPLIP)技术,提高组织病理学图像和文本的对齐性,以便于分类和分割等任务。该技术是如何利用无需标注的广泛数据来丰富视觉语言模型的?
- 关键思路CPLIP技术包括构建病理学特定的词典,使用语言模型为图像生成文本描述,并通过预训练模型检索每个文本片段的相关图像。然后使用多对多对比学习方法微调模型,以对齐两种模态之间的复杂相互关系。
- 其它亮点论文在多个组织病理学任务中进行了评估,显示出在零样本学习情况下显著的改进,优于现有方法的可解释性和鲁棒性,并为视觉语言模型在该领域的应用设定了更高的基准。CPLIP的代码已在GitHub上公开。
- 最近的相关研究包括:1. PathoBERT: a pre-trained language model for predicting molecular phenotypes from histology images;2. End-to-end learning for semisupervised histopathology image segmentation;3. Weakly supervised semantic segmentation in histopathology via multi-scale contextual information and semantic relationships。
沙发等你来抢
去评论
评论
沙发等你来抢