Capabilities of Gemini Models in Medicine

Khaled Saab,
Tao Tu,
Wei-Hung Weng,
Ryutaro Tanno,
David Stutz,
Ellery Wulczyn,
Fan Zhang,
Tim Strother,
Chunjong Park,
Elahe Vedadi,
Juanma Zambrano Chaves,
Szu-Yeu Hu,
Mike Schaekermann,
Aishwarya Kamath,
Yong Cheng,
David G. T. Barrett,
Cathy Cheung,
Basil Mustafa,
Anil Palepu,
Daniel McDuff,
Le Hou,
Tomer Golany,
Luyang Liu,
Jean-baptiste Alayrac,
Neil Houlsby,
Nenad Tomasev,
Jan Freyberg,
Charles Lau,
Jonas Kemp,
Jeremy Lai,
Shekoofeh Azizi,
Kimberly Kanada,
SiWai Man,
Kavita Kulkarni,
Ruoxi Sun,
Siamak Shakeri,
Luheng He,
Ben Caine,
Albert Webson,
Natasha Latysheva,
Melvin Johnson,
Philip Mansfield,
Jian Lu,
Ehud Rivlin,
Jesper Anderson,
Bradley Green,
Renee Wong,
Jonathan Krause,
Jonathon Shlens,
Ewa Dominowska,
S. M. Ali Eslami,
Katherine Chou,
Claire Cui,
Oriol Vinyals,
Koray Kavukcuoglu,
James Manyika,
Jeff Dean,
Demis Hassabis,
Yossi Matias,
Dale Webster,
Joelle Barral,
Greg Corrado,
Christopher Semturs,
S. Sara Mahdavi,
Juraj Gottweis,
Alan Karthikesalingam,
Vivek Natarajan
2508
热度
AI
NLP
CV
ML
2024年04月29日
  • 简介
    在各种医疗应用中取得卓越表现对于人工智能来说是一个相当大的挑战,需要先进的推理能力、及时的医学知识和对复杂多模态数据的理解。拥有多模态和长上下文推理方面强大通用能力的Gemini模型在医学领域具有激动人心的潜力。基于这些Gemini的核心优势,我们推出了Med-Gemini,这是一系列高度专业化的多模态模型,具有无缝使用网络搜索的能力,并且可以通过自定义编码器高效地适应新的模态。我们在14个医学基准测试中评估了Med-Gemini,在其中10个基准测试中取得了新的最优表现,并且在每个可以进行直接比较的基准测试中超越了GPT-4模型系列,常常领先很多。在流行的MedQA (USMLE) 基准测试中,我们表现最佳的Med-Gemini模型通过一种新颖的不确定性引导搜索策略实现了91.1%的最优表现。在7个多模态基准测试中,包括NEJM图像挑战和MMMU(健康和医学),Med-Gemini相对于GPT-4V平均提高了44.5%。我们通过从长时间的去识别的健康记录中进行针对性检索任务和医学视频问答的最佳表现,展示了Med-Gemini长上下文能力的有效性,超越了仅使用上下文学习的先前专门方法。最后,Med-Gemini的表现表明了它在医学文本摘要等任务上超越了人类专家,并展示了在多模态医学对话、医学研究和教育方面的有前途的潜力。综合来看,我们的结果为Med-Gemini的潜力提供了令人信服的证据,但在这个安全关键的领域进行实际部署之前,进一步的严格评估至关重要。
  • 图表
  • 解决问题
    介绍Med-Gemini,一种专注于医学的高性能多模态AI模型,旨在解决医学应用中的挑战。论文试图验证Med-Gemini在医学领域的实用性和优越性。
  • 关键思路
    Med-Gemini是一种高性能多模态AI模型,具有强大的多模态和长上下文推理能力,可以无缝地使用网络搜索,并可以使用自定义编码器有效地针对新的模态进行定制。通过在14个医学基准测试中的表现,论文证明了Med-Gemini在医学领域的卓越性能,超过了GPT-4模型家族,并在10个基准测试中创造了新的最先进性能。
  • 其它亮点
    论文使用多个数据集对Med-Gemini进行了评估,并展示了其在医学文本摘要、多模态医学对话、医学研究和教育方面的应用潜力。论文还使用一种新的不确定性引导搜索策略,在MedQA(USMLE)基准测试上实现了91.1%的最先进性能。
  • 相关研究
    最近的相关研究包括GPT-4模型家族和一些医学自然语言处理(NLP)模型,如BioBERT、ClinicalBERT和Med-BERT。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论