- 简介我们推出了MedGemma 1.5 4B,这是MedGemma系列模型的最新版本。MedGemma 1.5在MedGemma 1的基础上进一步拓展了多项关键能力:支持高维医学影像(包括CT/MRI三维体数据及组织病理学全视野数字切片图像)、通过边界框实现解剖结构定位、支持多时间点胸部X光片分析,以及提升对医学文档(如检验报告和电子健康档案)的理解能力。我们详细阐述了为在单一模型架构中统一支持上述多种模态所必需的技术创新,包括构建新型训练数据集、开发面向长上下文的三维体数据切片方法,以及设计适用于全视野病理切片的采样策略。相较于MedGemma 1 4B,MedGemma 1.5 4B在上述新增能力方面均取得显著提升:在3D MRI疾病条件分类任务中,准确率绝对提升11%;在3D CT疾病条件分类任务中,准确率绝对提升3%。在全视野病理影像分析任务中,其宏F1值提升达47%。在解剖结构定位方面,其胸部X光片上的交并比(IoU)提升35%;在纵向(即多时间点)胸部X光片分析任务中,宏准确率达到4%。除多模态性能全面超越MedGemma 1外,MedGemma 1.5在基于文本的临床知识理解与推理能力上亦有明显进步:MedQA准确率提升5%,EHRQA准确率提升22%。此外,该模型在四个不同的检验报告信息抽取数据集(EHR Datasets 2、3、4及Mendeley临床检验报告数据集)上,平均宏F1值达18%。综上所述,MedGemma 1.5是一款稳健、开源的社区资源,旨在作为更强大的基础模型,助力开发者构建下一代医学人工智能系统。有关如何基于MedGemma 1.5开展开发工作的全部资源与教程,请访问 https://goo.gle/MedGemma。
-
- 图表
- 解决问题现有医疗多模态大模型(如MedGemma 1)缺乏对高维医学影像(3D CT/MRI体数据、全切片病理图像)、解剖定位(带边界框的细粒度空间推理)、纵向时序分析(多时间点胸片)及结构化临床文档(检验报告、EHR)的统一建模能力;论文旨在验证:能否在单一4B参数规模架构中,系统性融合上述异构模态并显著提升跨模态临床任务性能。
- 关键思路提出统一多模态编码-对齐-推理框架:1)创新性3D体积切片策略(adaptive axial/sagittal/coronal sampling + depth-aware token compression)处理MRI/CT;2)分层瓦片采样(hierarchical tile sampling)与上下文感知注意力机制支持WSI长程依赖建模;3)时空位置编码扩展(temporal + anatomical bounding box embeddings)实现胸片多时间点比对与解剖定位;4)混合监督训练范式(模态特定损失 + 跨模态对比对齐 + 医学知识蒸馏),使用全新构建的多中心、多模态、标注丰富的MedGemma-1.5训练集。
- 其它亮点实验覆盖7类临床任务:3D MRI/CT分类(+11%/+3%绝对准确率)、WSI分类(+47% macro F1)、胸片解剖定位(+35% IoU)、纵向胸片分析(4% macro accuracy)、MedQA(+5%)、EHRQA(+22%)、实验室报告信息抽取(18% avg macro F1 on 4 EHR datasets);数据集全部开源(含CT/MRI volumes, WSI tiles, annotated chest X-ray series, de-identified EHR/lab reports);代码、权重、微调教程完全开放(https://goo.gle/MedGemma);关键待研方向:实时WSI流式推理、隐私保护联邦多中心训练、与医院PACS/RIS系统低延迟集成。
- MedGemma 1 (2024), BioMedCLIP (2023), PathLLM (2024), Radiology-GPT (2023), LLaVA-Med (2023), PMC-LLaMA (2023), FLAIR (2024), EHR-LLM (2024)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流