每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
最新
Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case Study in Medicine
Harsha Nori,
Yin Tat Lee,
Sheng Zhang
2023年11月28日
通用的基础模型,如GPT-4,在各种领域和任务中展示了惊人的能力。然而,普遍存在一种假设,即它们无法匹配精细调整模型的专业能力。例如,迄今为止大多数关于医学能力基准的探索都利用了领域特定的训练,如BioGPT和Med-PaLM。我们在之前对GPT-4在医学挑战基准测试中的能力的研究基础上进行了构建,而不是使用简单的提示来突出模型的开箱即用能力,我们进行了系统的提示工程探索。我们发现,提示创新可以解锁更深层次的专业能力,并且证明GPT-4很容易超越以前医学基准测试的领先结果。我们探索的提示方法是通用的,没有特定的领域专业知识,消除了需要专家策划内容的需求。我们的实验设计在提示工程过程中仔细控制过拟合。我们介绍了Medprompt,它基于几种提示策略的组合。使用Medprompt,GPT-4在MultiMedQA套件的所有九个基准数据集上都取得了最新的成果。该方法以数量级较少的模型调用次数显著优于领先的专业模型,如Med-PaLM 2。在MedQA数据集上,通过Medprompt引导GPT-4可以将错误率降低27%,超过迄今为止使用专业模型实现的最佳方法,并首次超过90%的得分。除了医学问题,我们展示了Medprompt的普适性,提供了该方法在电气工程、机器学习、哲学、会计、法律、护理和临床心理学考试中的研究证据。
98
热度
NLP
I.2.7
PDF
解读