Advancing Multimodal Medical Capabilities of Gemini

2024年05月06日
  • 简介
    许多临床任务需要理解专业数据,例如医学影像和基因组学,这些数据通常不在通用的大型多模态模型中。在Gemini的多模态模型基础上,我们开发了几个模型,形成新的Med-Gemini系列,这些模型继承了Gemini的核心能力,并通过对2D和3D放射学、组织病理学、眼科、皮肤科和基因组数据进行微调,优化了医学应用。Med-Gemini-2D基于专家评估,为基于AI的胸部X射线(CXR)报告生成设立了新的标准,超过了以前两个不同数据集上的最佳结果,其中57%和96%的正常病例的AI报告,以及43%和65%的异常病例的AI报告被评为“等同或更好”于原始放射科医师的报告。我们展示了基于大型多模态模型的3D计算机断层扫描(CT)体积报告生成的第一个例子,使用Med-Gemini-3D,其中53%的AI报告被认为是临床可接受的,尽管需要进一步的研究以达到专家放射科医师的报告质量。除了报告生成,Med-Gemini-2D在CXR视觉问答(VQA)方面超过了以前最佳表现,并在CXR分类和放射学VQA方面表现良好,在20项任务中有17项超过了SoTA或基线。在组织病理学、眼科和皮肤科图像分类方面,Med-Gemini-2D在20项任务中有18项超过了基线,并接近任务特定的模型性能。除了成像,Med-Gemini-Polygenic在疾病风险预测方面优于标准线性多基因风险评分方法,并且适用于从未接受过培训的遗传相关疾病。虽然在安全关键的医疗领域需要进一步的开发和评估,但我们的结果突显了Med-Gemini在广泛的医学任务中的潜力。
  • 图表
  • 解决问题
    本篇论文试图解决医疗领域中的多种任务,如医学图像和基因组学数据的理解和应用问题。同时,论文还尝试通过AI自动生成医学报告。
  • 关键思路
    本文提出了一种新的多模态模型Med-Gemini,通过对2D和3D医学图像和基因组数据进行微调,优化了Gemini模型在医学领域的应用。Med-Gemini-2D在胸部X射线报告生成方面表现出色,同时在CX分类和视觉问答方面也超过了之前的最佳表现。Med-Gemini-3D是第一个基于大型多模态模型的3D CT体积报告生成方法,但仍需要进一步的研究来满足专家放射科医师的质量标准。
  • 其它亮点
    实验结果表明,Med-Gemini-2D在组织病理学、眼科和皮肤科图像分类方面表现优异,超过了基线模型。此外,Med-Gemini-Polygenic在疾病风险预测方面也表现出色,超过了标准的线性多基因风险评分方法。该论文的贡献在于提出了一种新的多模态模型,为医学领域的多种任务提供了一个新的解决方案。
  • 相关研究
    在最近的相关研究中,还有一些关于医学图像和基因组学数据处理的研究,如《Deep Learning in Medical Image Analysis》和《Deep learning applications in medical image analysis》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论