Combining Insights From Multiple Large Language Models Improves Diagnostic Accuracy

2024年02月13日
  • 简介
    背景:大型语言模型(LLMs)如OpenAI的GPT-4或Google的PaLM 2被提出作为可行的诊断支持工具,甚至被认为是“路边咨询”的替代品。然而,即使是专门针对医学主题进行训练的LLMs,在现实应用中可能缺乏足够的诊断准确性。 方法:使用集体智慧方法和200个真实病例的临床案例数据集,我们评估并比较了通过询问单个商业LLMs(OpenAI GPT-4、Google PaLM 2、Cohere Command、Meta Llama 2)获得的不同诊断的准确性,以及通过汇总来自相同LLMs组合的响应合成的不同诊断的准确性。 结果:我们发现,聚合来自多个不同LLMs的响应会导致更准确的不同诊断(3个LLMs的平均准确率:$75.3\%\pm 1.6pp$),与单个LLMs产生的不同诊断相比(单个LLMs的平均准确率:$59.0\%\pm 6.1pp$)。 讨论:使用集体智慧方法合成不同LLMs的响应来综合不同的诊断,实现了推进LLMs作为诊断支持工具的两个必要步骤:(1)展示高诊断准确性,(2)消除对单个商业供应商的依赖。
  • 作者讲解
  • 图表
  • 解决问题
    评估使用多个商业化语言模型进行诊断的准确性
  • 关键思路
    通过集体智慧方法,将多个语言模型的响应聚合,从而获得更准确的诊断结果
  • 其它亮点
    使用200个真实病例的临床案例数据集进行评估,发现使用多个语言模型的聚合响应可以显著提高诊断准确性,实验结果表明平均准确率为75.3%,开创了使用集体智慧方法进行诊断的新思路
  • 相关研究
    最近的相关研究包括使用深度学习模型进行临床诊断的研究,如“Deep Learning for Medical Diagnosis: Challenges, Solutions and Opportunities”
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问