Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case Study in Medicine

2023年11月28日
  • 简介
    通用的基础模型,如GPT-4,在各种领域和任务中展示了惊人的能力。然而,普遍存在一种假设,即它们无法匹配精细调整模型的专业能力。例如,迄今为止大多数关于医学能力基准的探索都利用了领域特定的训练,如BioGPT和Med-PaLM。我们在之前对GPT-4在医学挑战基准测试中的能力的研究基础上进行了构建,而不是使用简单的提示来突出模型的开箱即用能力,我们进行了系统的提示工程探索。我们发现,提示创新可以解锁更深层次的专业能力,并且证明GPT-4很容易超越以前医学基准测试的领先结果。我们探索的提示方法是通用的,没有特定的领域专业知识,消除了需要专家策划内容的需求。我们的实验设计在提示工程过程中仔细控制过拟合。我们介绍了Medprompt,它基于几种提示策略的组合。使用Medprompt,GPT-4在MultiMedQA套件的所有九个基准数据集上都取得了最新的成果。该方法以数量级较少的模型调用次数显著优于领先的专业模型,如Med-PaLM 2。在MedQA数据集上,通过Medprompt引导GPT-4可以将错误率降低27%,超过迄今为止使用专业模型实现的最佳方法,并首次超过90%的得分。除了医学问题,我们展示了Medprompt的普适性,提供了该方法在电气工程、机器学习、哲学、会计、法律、护理和临床心理学考试中的研究证据。
  • 图表
  • 解决问题
    本篇论文旨在探究如何通过prompt engineering提高GPT-4在医学问题上的表现,以及探索这种方法的通用性。这是否是一个新问题?
  • 关键思路
    通过prompt engineering的方法,将多种提示策略进行组合,可以显著提高GPT-4在医学问题上的表现,甚至超越了专业模型。同时,这种方法具有通用性,可以在其他领域中得到应用。
  • 其它亮点
    论文通过实验验证了Medprompt方法的有效性,该方法在多个医学问题数据集上均取得了最优结果。同时,该方法具有通用性,在其他领域中也具有较好的表现。论文提供了开源代码和数据集,并控制了过度拟合的风险。
  • 相关研究
    在医学问题领域,之前的研究主要依赖于领域专家的知识,如BioGPT和Med-PaLM。而本文则是通过prompt engineering的方法,将多种提示策略进行组合,实现了在医学问题上的最优结果。在其他领域中,也有一些类似的研究,如在机器学习、哲学、会计、法律、护理和临床心理学等领域中的应用。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论