Designing UNICORN: a Unified Benchmark for Imaging in Computational Pathology, Radiology, and Natural Language

2026年03月03日
  • 简介
    医学基础模型展现出从大规模、多样化数据集中学习广泛泛化特征的潜力。这有望成为实现可靠跨模态泛化能力,以及仅需少量任务特异性样本即可快速适配新任务目标的基础。然而,目前支持这一设想的实证证据仍十分有限,主要原因在于缺乏公开、标准化且可复现的评估框架:现有公开基准测试往往按任务类型、解剖器官或成像模态进行割裂式设计,难以全面评估模型在不同任务间的泛化能力。为此,我们推出了UNICORN——一个面向公众开放、旨在通过统一评估协议系统性评测医学基础模型性能的新型基准测试平台。为精准衡量模型表征质量,我们构建了一种创新的两阶段评估框架,将模型推理过程与基于标准化少样本(few-shot)适配的任务特异性评估完全解耦。作为核心设计理念,我们基于临床相关队列构建了“间接访问式”的隔离测试集(sequestered test sets),并配套提供标准化的评估代码及开放基准测试平台上的统一提交接口。最终,各项评估结果被整合为一个单一的综合指标——UNICORN Score(UNICORN评分),这是我们新提出的量化指标,旨在支持对不同医学领域、多种成像模态及各类任务类型下的基础模型开展直接、公平的横向比较。UNICORN测试数据集涵盖来自全球8个国家、17家医疗机构的逾2400名患者的数据,包括逾3700例影像学病例和逾2400份临床报告;该基准覆盖8个解剖区域及4种成像模态。平台同时提供面向单个任务的细分排行榜与整体综合排行榜,从而确保评估过程具备良好的可及性、标准化程度与可复现性。通过统一规范多任务、多模态的综合评估流程,UNICORN为医学基础模型的可复现性基准评测奠定了坚实基础。全部数据、基线方法及评估平台均已通过官网 unicorn.grand-challenge.org 公开发布,供研究社区自由使用。
  • 作者讲解
  • 图表
  • 解决问题
    缺乏统一、公开、标准化的评估框架来系统衡量医疗基础模型(medical foundation models)在跨任务、跨模态、跨解剖区域的泛化能力;现有基准碎片化(按任务/器官/模态划分),无法验证‘一个预训练模型+少量样本即可适配多样临床任务’这一核心假设。
  • 关键思路
    提出UNICORN——首个面向医疗基础模型的统一少样本评估基准,采用创新的两步解耦框架:1)固定模型前向推理(冻结表征),2)在标准化少样本适配协议下独立评估下游任务性能;关键设计包括临床真实、间接访问的隔离测试集(sequestered test sets)、跨17家机构/8国的多中心多模态数据、以及聚合为单一可比指标的UNICORN Score。
  • 其它亮点
    测试集覆盖2400+患者、3700+影像案例、2400+临床报告,涵盖8个解剖区域和4种影像模态(CT/MRI/X-ray/US);完全开源:数据(脱敏后)、基线模型(如Med-Flamingo、PMC-CLIP微调版)、标准化评估代码、在线提交平台(unicorn.grand-challenge.org)全部公开;实验严格控制few-shot shot数(1/4/16)与随机种子,支持跨模型公平比较;值得深入的方向包括:时序临床文本-影像联合表征、隐私保护下的分布式基准构建、UNICORN Score对临床部署可靠性的预测效度验证。
  • 相关研究
    Med-PaLM 2 (2023), PMC-CLIP (2023), BioMedCLIP (2023), Med-Flamingo (2023), PathLLM (2024), RadFM (2023), CheXzero (2023), FLAIR (2024)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问