每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
最新
Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case Study in Medicine
Harsha Nori,
Yin Tat Lee,
Sheng Zhang
2023年11月28日
通用的基础模型,如GPT-4,在各种领域和任务中展示了惊人的能力。然而,普遍存在一种假设,即它们无法匹配精细调整模型的专业能力。例如,迄今为止大多数关于医学能力基准的探索都利用了领域特定的训练,如BioGPT和Med-PaLM。我们在之前对GPT-4在医学挑战基准测试中的能力的研究基础上进行了构建,而不是使用简单的提示来突出模型的开箱即用能力,我们进行了系统的提示工程探索。我们发现,提示创新可以解锁更深层次的专业能力,并且证明GPT-4很容易超越以前医学基准测试的领先结果。我们探索的提示方法是通用的,没有特定的领域专业知识,消除了需要专家策划内容的需求。我们的实验设计在提示工程过程中仔细控制过拟合。我们介绍了Medprompt,它基于几种提示策略的组合。使用Medprompt,GPT-4在MultiMedQA套件的所有九个基准数据集上都取得了最新的成果。该方法以数量级较少的模型调用次数显著优于领先的专业模型,如Med-PaLM 2。在MedQA数据集上,通过Medprompt引导GPT-4可以将错误率降低27%,超过迄今为止使用专业模型实现的最佳方法,并首次超过90%的得分。除了医学问题,我们展示了Medprompt的普适性,提供了该方法在电气工程、机器学习、哲学、会计、法律、护理和临床心理学考试中的研究证据。
98
热度
NLP
I.2.7
PDF
解读
Igniting Language Intelligence: The Hitchhiker's Guide From Chain-of-Thought Reasoning to Language Agents
Zhuosheng Zhang,
Yao Yao,
Aston Zhang
2023年11月20日
大型语言模型(LLMs)极大地增强了语言智能领域,其在各种复杂推理任务中的强大实证表现证明了这一点。此外,理论证明已经阐明了它们的新兴推理能力,提供了一个令人信服的展示,证明了它们在语言环境中的先进认知能力。在处理复杂推理任务方面,CoT推理技术对于LLMs的显著功效至关重要,因为它们必须制定中间步骤以便推导出答案。CoT推理方法不仅在增强推理性能方面表现出熟练的能力,而且在提高可解释性、可控性和灵活性方面也表现出了优异的能力。鉴于这些优点,最近的研究努力将CoT推理方法扩展到培养自主语言代理的发展,这些代理能够熟练地遵循语言指令并在不同环境中执行动作。本文梳理了一个全面的讨论,深入探讨了重要的研究维度,包括:(i)CoT技术的基础机制,重点阐述其功效的情况和理由;(ii)CoT的范式转变;以及(iii)由CoT方法强化的语言代理的兴起。未来的研究方向包括探索泛化、效率、定制、扩展和安全性。本文适合广泛的受众,包括寻求全面了解CoT推理和语言代理的初学者,以及对基础机制感兴趣并参与最前沿讨论的经验丰富的研究人员。相关论文的存储库可在https://github.com/Zoeyyao27/CoT-Igniting-Agent上找到。
23
热度
NLP
AI
CV
PDF
解读