DRUGAI

皮肤病的诊断与治疗需要跨领域的高级视觉技能,并能整合多种成像模态的信息。尽管当前的深度学习模型在如皮肤癌诊断等特定任务中表现出色,但仍难以满足临床实践中多模态综合分析的复杂需求。研究人员提出了PanDerm,一个通过自监督学习在来自11家临床机构、涵盖四种成像模态的200多万张真实世界皮肤病图像上预训练的多模态基础模型。PanDerm在28个多样化基准任务中进行了评估,包括皮肤癌筛查、风险分层、常见与罕见皮肤病的鉴别诊断、病灶分割、纵向监测、转移预测与预后分析等任务。PanDerm在所有任务中均达到了当前最优性能,且在仅使用10%标注数据时,表现依旧优于现有模型。通过三项读者研究,PanDerm在早期黑色素瘤检测中超越临床医生10.2%,在皮肤镜图像上提升诊断准确率11%,在128种临床皮肤病图像的诊断中帮助非皮肤科医生提升16.5%。这些结果展示了PanDerm在多种临床场景中改善患者护理的潜力,同时也为其他医学领域多模态基础模型的发展提供了范式,有望加速人工智能在医疗中的融合应用。

人工智能在医学图像分析领域取得了显著进展,尤其在皮肤病学中,深度学习系统在某些任务上甚至已达到皮肤科专家水平。然而,大多数AI模型仍仅限于单模态、单任务的应用场景,例如仅识别皮肤镜图像中的皮肤癌,难以应对实际临床中“以病人为中心”的复杂流程。


皮肤病学的复杂性体现在三个方面:一是病种多样,既包括炎症性疾病、色素障碍,也包括恶性肿瘤和罕见病;二是诊断手段多样,需要依赖多种成像模态如皮肤镜、病理切片、临床照片与全身皮肤摄影等;三是诊疗任务广泛,包括疾病筛查、分级、追踪、预后分析、影像标注与分割等。这些因素导致目前AI系统难以在临床中真正发挥作用。


基础模型的出现为应对上述挑战提供了契机。这类模型通过在海量、多样化数据上进行自监督预训练,可获得通用的表示能力,并能够在下游任务中实现更强的迁移能力。然而,皮肤病学缺乏专门为其多模态需求设计的基础模型,大多数现有模型仍依赖于通用计算机视觉预训练,如ImageNet,并在有限的皮肤图像上微调。这限制了其在实际临床中的适应性和泛化能力。


为此,研究人员设计了PanDerm,一个专为皮肤病学构建的多模态基础模型。该模型结合了来自全球11家机构的真实皮肤病图像,采用多种图像模态构建训练数据,并引入对比语言图像预训练(CLIP)特征对齐与掩码重建等先进的自监督学习策略,从而获得强大的跨模态表示能力。


结果

模型训练策略与消融分析

研究人员首先系统评估了PanDerm在不同训练数据规模和训练轮次下的性能表现。结果显示,PanDerm具有卓越的数据利用效率,仅使用0.8百万张图像和200次训练轮次,即已超越多个现有主流模型(如SwAVDerm、DINOv2与MAE)。相比之下,这些模型通常需要500–800轮训练和更大的数据量才能达到相似性能。


同时,PanDerm在训练中使用CLIP作为教师模型进行特征对齐,使得其在多模态图像之间实现更紧密的表示统一。在线性探测和微调测试中,PanDerm也展现出与全参数模型相近的表现,进一步验证其强大的泛化能力。


多模态图像下的皮肤癌诊断与泛化能力

PanDerm在10个来自不同国家和成像模态的皮肤癌分类数据集上均显著超越其他模型。在皮肤镜图像诊断中(如HAM10000),PanDerm准确率提升达4.7%;在临床照片诊断中提升9.0%。即便在仅使用10–30%标注图像的情境下,PanDerm仍能维持领先表现,说明其在低资源环境下的实用价值。


在外部医疗中心测试中,PanDerm保持了在训练未见图像上的强大泛化能力,AUROC提升2–4%,说明其适用于不同人群和机构的图像分布。


多类别皮肤病分类能力

在三大数据集(MMT-09、MMT-74与DermNet)中,PanDerm在分别覆盖9、74和23种皮肤病的任务上均获得3–8%的准确率提升。特别是随着疾病种类增加,PanDerm的优势更明显,显示其具备强大的多病种识别与分辨能力。


病灶变化监测能力

在两组皮肤镜序列图像(SDDI1与SDDI2)中,PanDerm可检测出短期内病灶形态学微小变化,显著提升病灶变化识别准确率(分别提升至70.6%和76.7%),为早期发现黑色素瘤提供了有效工具。


黑色素瘤转移预测与生存分析

使用370位黑色素瘤患者的皮肤镜图像,PanDerm成功预测未来发生转移的高风险患者。在多变量分析中,PanDerm的预测能力超过了传统临床变量,3年、5年和7年的预后预测AUROC分别为0.95、0.93和0.91。此外,将模型预测结果与临床因素结合后可进一步提升长期预后判断准确性。


全身摄影(TBP)分析

在来自澳大利亚的全身图像中,PanDerm在光损伤评估(F1=0.896)、痣数量估计(AUROC=0.983)与病灶风险评估等任务中表现优越。在筛查恶性病灶的任务中,PanDerm可用更少的检查数目(减少60.8%)识别更多的黑色素瘤病例。


皮肤病灶分割任务

在ISIC2018和HAM10000两个数据集中,PanDerm在Jaccard指数上分别提升1.9%和3.1%,并在仅用5%训练数据时就能达到次优模型的完整表现。此外,PanDerm在图像处理速度上比MedSAM快4–5倍,更适合临床实际应用。


人机协同读者研究

早期黑色素瘤检测:在与12位皮肤科医生的对比中,PanDerm能更早识别77.5%的黑色素瘤病灶,明显领先于医生平均水平(32.6%)。


皮肤镜图像分类:在41位医生的协助诊断中,PanDerm将准确率从69%提升至80%,低能力医生提升最显著(+17%)。


临床照片分类(128病种):在37位来自5国的医生评估中,PanDerm将诊断评分从2.83提升至3.08,前3名准确率提升9.4%。普通科医生组受益最明显(提升16.5%)。


讨论

PanDerm作为一个针对皮肤病学的多模态基础模型,展示了AI系统从“单点工具”向“多任务综合平台”演进的潜力。研究人员通过精细的数据收集策略避免使用公共测试集数据训练,从而增强模型泛化性与评估的公正性。


从实际表现来看,PanDerm不仅在皮肤癌筛查和高级分析(如转移预测)中取得领先成绩,更在常见皮肤病分类任务中表现卓越。这说明其可作为日常临床辅助工具,特别是在初级卫生系统或皮肤科医生稀缺地区,填补专业认知缺口。


此外,在人机协同的设置中,PanDerm的独立表现甚至优于人类与AI协作的结果,这与其他医学大模型研究中的观察一致,暗示AI模型可提供独立且值得信赖的第二意见,而不是单纯依赖人工调整。


当然,PanDerm尚存在不足,例如疾病种类覆盖仍不完全、对稀有遗传病和系统性疾病的识别能力仍待提升。同时,需进一步加强模型在跨年龄、肤色、性别等多样人群中的公平性评估,未来应构建更系统的偏倚检测框架。


综上所述,PanDerm证明了通过系统性自监督学习与多模态数据集训练可构建高效的专科医学基础模型。该方法可推广至其他需整合多模态图像的医学专科,为推动人工智能全面融入临床提供可行路径。

整理 | WJM

参考资料

Yan, S., Yu, Z., Primiero, C. et al. A multimodal vision foundation model for clinical dermatology. Nat Med (2025). 

https://doi.org/10.1038/s41591-025-03747-y

内容中包含的图片若涉及版权问题,请及时与我们联系删除