在各种医学应用中取得卓越成就对AI提出了相当大的挑战,需要先进的推理能力、获取最新的医学知识和理解复杂的多模态数据。Gemini模型在多模态和长文本推理方面具有强大的通用能力,在医学领域具有令人兴奋的前景。基于Gemini的这些核心优势,我们推出了Med-Gemini,这是一系列高度能力的多模态模型,专门针对医学领域,能够无缝使用网络搜索,并且可以通过自定义编码器高效地适应新的模态。我们在14个医学基准测试上评估了Med-Gemini,在其中10个测试中建立了新的最先进性能(SoTA),并且在每个可比较的基准测试中均超过了GPT-4模型系列,通常具有较大的优势。在流行的MedQA(USMLE)基准测试中,我们表现最佳的Med-Gemini模型使用一种新的不确定性引导搜索策略,实现了91.1%的SoTA准确率。在包括NEJM图像挑战和MMMU(健康与医学)在内的7个多模态基准测试中,Med-Gemini相对于GPT-4V平均提高了44.5%。我们通过在长匿名健康记录和医学视频问答中实现SoTA表现来展示Med-Gemini长文本能力的有效性,超越了先前仅使用上下文学习的定制方法。最后,Med-Gemini的表现表明其在医学文本摘要等任务上超越了人类专家,并展示了在多模态医学对话、医学研究和教育方面的有前途的潜力。总之,我们的结果提供了Med-Gemini潜力的有力证据,但在这个安全关键领域的实际部署之前,进一步严格的评估是至关重要的。
提问交流