VLM-CPL: Consensus Pseudo Labels from Vision-Language Models for Human Annotation-Free Pathological Image Classification

简介

本研究提出了一种新颖的无需人工标注的病理图像分类方法，通过利用预训练的视觉-语言模型(VLMs)。该方法不需要人工标注，利用VLM的零样本推理能力获得训练集的伪标签，但由于预训练数据与目标数据集之间存在领域转移，因此这些伪标签可能包含大量噪声。为了解决这个问题，本文提出了一种基于共识伪标签的新方法VLM-CPL，它将两种噪声标签过滤技术与半监督学习策略相结合。具体而言，我们首先使用VLM对输入的多个增强视图进行零样本推理，并进行不确定性估计，获得基于提示的伪标签。然后，通过利用VLM的特征表示能力，在特征空间中进行样本聚类，获得基于特征的伪标签。我们引入了提示-特征共识，基于两种类型的伪标签之间的共识选择可靠样本。通过拒绝低质量的伪标签，我们进一步提出了高置信度交叉监督(HCS)，从可靠的伪标签样本和其余未标记样本中学习。实验结果表明，我们的方法在HPH和LC25K数据集上分别获得了87.1%和95.1%的准确率，大大优于现有的零样本分类和噪声标签学习方法。该代码可在https://github.com/lanfz2000/VLM-CPL上获得。
图表
解决问题

论文试图通过利用预训练的视觉-语言模型（VLM）和一种基于共识伪标签的方法，实现无需人工标注的病理图像分类，解决深度学习方法在病理图像分类中需要大量人工标注的问题。
关键思路

论文提出了一种新的基于共识伪标签的方法VLM-CPL，通过利用VLM进行零样本推理获得伪标签，然后通过两种噪声标签过滤技术和半监督学习策略来提高伪标签的可靠性，最终实现无需人工标注的病理图像分类。
其它亮点

论文使用了两个数据集进行实验，分别是HPH和LC25K，取得了87.1%和95.1%的准确率，相比于现有的零样本分类和噪声标签学习方法有很大的提升。此外，论文提供了开源代码。
相关研究

近期相关研究包括：1.《Zero-Shot Learning for Medical Image Analysis: A Review》；2.《Semi-Supervised Learning with Deep Generative Models: A Review》；3.《Unsupervised Deep Learning for Bayesian Brain MRI Segmentation》。

VLM-CPL: Consensus Pseudo Labels from Vision-Language Models for Human Annotation-Free Pathological Image Classification

评论