- 简介人工智能(AI)在医疗领域具有巨大的应用潜力,但由于医疗数据的多样性、任务的复杂性以及隐私保护的需求,其训练和部署面临诸多挑战。能够胜任医疗任务且所需任务特定调优数据较少的基础模型对于加快医疗AI应用的发展至关重要。我们推出了MedGemma,这是一系列基于Gemma 2 4B和27B的医疗视觉-语言基础模型。MedGemma在图像和文本上展现出先进的医学理解和推理能力,显著超越了同规模生成模型的表现,并接近任务专用模型的性能,同时保留了Gemma 2基础模型的通用能力。在分布外任务上,与基础模型相比,MedGemma在医疗多模态问答任务上的表现提升了2.6-10%,在胸部X光发现分类任务上提升了15.5-18.1%,在代理评估(agentic evaluations)中提升了10.8%。对MedGemma进行微调可进一步提升其在细分领域的表现,例如将电子健康记录信息检索的错误率降低50%,并在气胸分类和组织病理学图像块分类任务上达到与当前最先进的专用方法相当的性能。此外,我们还推出了MedSigLIP,这是一个基于SigLIP优化调整而来的医学视觉编码器。MedSigLIP为MedGemma提供视觉理解能力,并作为编码器在性能上达到了甚至超过了现有的专业医学图像编码器。总体而言,MedGemma系列模型为处理医学图像和文本提供了强大的基础能力,有望大幅加速医学研究以及下游应用的开发进程。MedGemma系列模型及相关资源,包括教程和模型权重,可在https://goo.gle/medgemma获取。
- 图表
- 解决问题论文旨在解决医疗人工智能(AI)在训练和部署中面临的挑战,包括医疗数据的多样性、任务复杂性以及隐私保护需求。当前缺乏能够减少对任务特定微调数据依赖的通用医疗基础模型,这限制了医疗AI应用的发展。
- 关键思路提出MedGemma,一种基于Gemma 3的医疗视觉-语言基础模型,通过预训练使其具备跨模态的医学理解和推理能力,从而减少对特定任务数据的依赖,并在多种医疗任务上接近任务专用模型的表现。此外,还引入了MedSigLIP作为其视觉编码器,提升图像理解能力。
- 其它亮点{MedGemma在多个医疗任务上显著优于同规模生成模型,并接近任务专用模型表现,在分布外任务上实现显著性能提升:多模态问答2.6-10%,胸片发现分类15.5-18.1%,代理评估10.8%,微调后在子领域进一步提升性能,电子健康记录检索错误率降低50%,达到现有最佳方法在气胸分类和组织病理学图像块分类上的性能水平,MedSigLIP作为视觉编码器,在医疗图像处理方面表现媲美或优于专业编码器,开源模型权重与教程,促进后续研究}
- {"Flamingo: a Visual Language Model for Few-shot Learning","ALIGN: Scaling Up Vision-Language Pre-training with Million-Scale Web Dataset","BEiT-3: Masked Modality-General Representation Learning with Online Tokenizer","BioViL: A Vision-and-Language Model for Medical Reports and Images","MIMIC-IT: A Multi-modal Image Captioning Framework for Radiology Findings"}
沙发等你来抢
去评论
评论
沙发等你来抢