DRUGONE

皮肤病的诊断与治疗需要在多个成像模态中具备高级视觉理解能力,并能整合不同来源的信息。尽管当前深度学习模型在皮肤镜图像下的皮肤癌诊断等特定任务上表现优异,但仍难以满足临床实践中对多模态综合分析的需求。研究人员在此提出PanDerm——一种通过自监督学习在来自11家临床机构、覆盖4种成像模态的超过200万张真实世界皮肤病图像上预训练的多模态皮肤科基础模型。研究人员在28项临床任务基准上对其进行了评估,包括皮肤癌筛查、风险分层、常见与罕见皮肤病的鉴别诊断、病灶分割、纵向监测以及转移预测和预后等。PanDerm在所有任务中均达到了当前最佳性能,且在仅使用10%标注数据的情况下常常超过现有模型。研究人员开展了三项读者研究,评估其临床潜力:PanDerm在早期黑色素瘤的纵向识别中比临床医生高出10.2%,在皮肤镜图像上的皮肤癌诊断中将准确率提升11%,在128种皮肤病的临床照片诊断中提升非皮肤科医生16.5%的准确率。结果表明,PanDerm有望在多种临床场景中改善患者护理,并为其他医学领域开发多模态基础模型提供参考,有望加速人工智能在医疗领域的落地。

尽管深度学习在皮肤病诊断中常常达到甚至超越皮肤科专家的水平,但现有AI模型仍主要聚焦于皮肤镜图像下的皮肤癌识别等孤立任务,缺乏整合多种数据类型与成像模态的能力,限制了其在真实临床场景中的应用。皮肤科类似内科,是高度复杂的学科,涵盖从常见皮肤病到危及生命的恶性疾病,因此需要整合多流程的、以患者为中心的临床工作路径。


在临床实践中,皮肤病的诊疗涉及多种任务,如全身皮肤癌筛查与风险评估、上百种疾病(如炎症性皮肤病和色素障碍)的鉴别诊断、多模态图像分析、病理判读、病灶变化监测和结局预测等。目前缺乏能够统一支持上述流程的AI解决方案。近年来,基础模型的进展为该挑战提供了潜在的解决方向。

基础模型通过在大规模异质性数据上的自监督预训练,学习出通用的表达能力,在多个医学领域(如眼科、放射科、病理)中已展现出卓越性能,并可通过较少的标注样本完成任务。但在皮肤科中构建此类基础模型仍存在特有挑战,例如获取真实患者多模态图像数据的难度。许多早期模型仍依赖于ImageNet等自然图像模型进行迁移,或使用公共皮肤图像数据集,但这些方式受限于数据的规模、异质性或临床代表性。

结果


模型训练策略与消融分析

PanDerm在训练数据从80万扩展到180万张时展现出优异的扩展性,比现有主流模型SwAVDerm在少33%的数据下取得更优性能。同时,其训练效率显著高于其他自监督算法(如MILAN、DINOv2、MAE),只需200个epoch即可达到最佳性能。此外,在与BiomedGPT等通用医学基础模型的对比中,PanDerm在皮肤癌检测、疾病分类和病理图像分析中分别提高了20.9%、34.7%和19.6%的性能(F1分数)。



诊断性能与泛化能力

PanDerm在10个涵盖4种模态、7个国家的公开数据集上表现优异,在9个数据集上优于所有对比模型,分别在皮肤镜、临床图像、全身图像和病理图像中平均提升5.1%、8.0%、4.2%和0.9%。此外,仅使用10–30%标注数据即达到现有模型的性能。对来自7家未参与训练的国际医疗机构的外部数据测试显示,其泛化能力依旧强劲。


在皮肤病多类别诊断中,PanDerm在MMT-09、DermNet和MMT-74三个数据集上分别提升3.2%、7.1%和8.2%的F1得分。其优势在病种数量增加时更加显著,凸显其处理复杂多疾病任务的能力。



病灶变化检测

研究人员评估了PanDerm在3个月内监测病灶变化的能力。利用标准化处理流程提升图像配准与质量控制后,PanDerm在SDDI1和SDDI2两个数据集上分别将变化检测的AUROC提高了4.3%和3.7%,对恶性病灶的识别准确率比次优模型高出15%。



黑色素瘤转移与预后预测

在680例来自多国的黑色素瘤病例中,PanDerm以0.964的AUROC识别潜在转移风险,优于次优模型2%。在区分局部与远处转移方面也有2.8%的F1提升。Kaplan–Meier分析显示其高风险分组的复发自由时间显著缩短,Cox回归中PanDerm预测优于其他所有临床因子。随访3、5、7年时,其AUC分别达到0.950、0.931和0.909。



全身图像风险评估与筛查

在澳大利亚480例患者中,PanDerm在光损伤评估和痣计数任务中分别达成0.896和0.983的得分。用于高风险患者的恶性病灶筛查中,其敏感性达0.893,在减少60.8%不必要检查的同时检测出80个恶性病灶中的79个,显著优于人工筛查。



病灶分割任务

在ISIC2018和HAM10000数据集上,PanDerm分别提升3.1%和1.9%的Jaccard指数。在只用5%训练数据的情况下即与次优模型持平。与MedSAM模型相比,其处理速度快4–5倍,资源消耗更少。


临床读者研究

  • 早期黑色素瘤检测:PanDerm识别率为77.5%,而人类读者仅32.6%,整体准确率提高10.2%。

  • 皮肤癌诊断辅助:在41名医生中加入PanDerm预测后,总体诊断准确率从0.69提升至0.80,低水平医生提升最显著(17%)。

  • 128种皮肤病鉴别诊断:在五国37名读者中,PanDerm帮助将前1名诊断得分从2.83提升至3.08,前三名准确率从54.2%提升至63.4%,提升对炎症类疾病尤为显著(+14.2%)。

讨论

尽管AI技术发展迅速,但其在临床医学中的应用仍局限于单一任务。皮肤科需要整合全身评估、局部病灶分析和多种成像模态,是验证多任务AI能力的理想领域。


PanDerm通过对超过200万张多模态图像的自监督预训练,实现了对皮肤癌及常见皮肤病的多任务覆盖。在28项基准评估中,其仅用10%的标注数据即可超越现有模型,表明其极具数据效率。


三项临床读者研究表明,PanDerm不仅能提高皮肤癌检测的准确性,还能显著改善非专业人员在皮肤病诊断中的表现。其在炎症性疾病等初级诊疗常见病中的优势,凸显其在基层医疗中的应用潜力。


此外,PanDerm展现出的训练效率(例如通过CLIP教师模型实现更快收敛)和对微小病灶变化的敏感性,代表了构建医学基础模型的可行路径。与通用医学模型相比,专科定制模型如PanDerm更能满足具体临床工作流程的需求。


然而,PanDerm仍存在一定局限,例如对罕见疾病的覆盖不足、多模态与人群公平性评估尚需加强。未来应建立更全面的跨群体评价标准,推动人机协同的公正性研究,并通过国际合作拓展数据覆盖范围。


总之,PanDerm展示了面向专科医学的多模态基础模型在推动AI临床落地方面的潜力,为其他需要多模态整合的医学领域提供了发展模板。

整理 | DrugOne团队


参考资料


Yan, S., Yu, Z., Primiero, C. et al. A multimodal vision foundation model for clinical dermatology. Nat Med (2025). 

https://doi.org/10.1038/s41591-025-03747-y


内容中包含的图片若涉及版权问题,请及时与我们联系删除