【论文标题】Large Language Models Encode Clinical Knowledge
【作者团队】Karan Singhal, Shekoofeh Azizi, Tao Tu, S. Sara Mahdavi, Jason Wei, Hyung Won Chung, Nathan Scales, Ajay Tanwani, Heather Cole-Lewis, Stephen Pfohl, Perry Payne, Martin Seneviratne, Paul Gamble, Chris Kelly, Nathaneal Scharli, Aakanksha Chowdhery, Philip Mansfield, Blaise Aguera y Arcas, Dale Webster, Greg S. Corrado, Yossi Matias, Katherine Chou, Juraj Gottweis, Nenad Tomasev, Yun Liu, Alvin Rajkomar, Joelle Barral, Christopher Semturs, Alan Karthikesalingam, Vivek Natarajan
【发表时间】2022/12/26
【机 构】Google、Deepmind
【论文链接】https://arxiv.org/pdf/2211.13672v1.pdf
大型语言模型(LLMs)在自然语言理解和生成方面表现出令人印象深刻的能力,但对医疗和临床应用的质量要求很高。目前,评估模型的临床知识还没有一个标准来评估模型的预测和推理的下游任务。为了解决这个问题,本文提出了MultiMedQA,一个结合了六个现有的公开问答数据集的基准,涵盖了专业考试、研究和消费者医学问题;以及HealthSearchQA,一个新的在线医学问题的自由回答数据集。本文提出了一个框架,用于沿着多个维度对模型答案进行人工评估,包括事实性、精确度、可能的伤害和偏见。
此外,本文还在MultiMedQA上评估了PaLM及其指令微调的变体Flan-PaLM。通过结合小样本、CoT、提示策略,Flan-PaLM在MultiMedQA的每一个多选题数据集上都达到了最优的准确率,包括在MedQA(美国医学执照考试题目)上的67.6%的准确率,超过了之前的最先进水平17%以上。另外本文引入了指令提示调整,训练了Med-PaLM模型,它的表现更好但仍然比临床医生差。本文表明,理解力、知识和医学推理随着模型规模和指令提示的调整而改善,这展示LLMs在医学中的潜在应用空间。

上图展示了Med-PaLM的指示提示微调。
为了使Flan-PaLM适应医疗领域,本文在一小部分数据上进行了指令提示微调。这些数据的质量十分重要,作者从MultiMedQA自由回答数据集(HealthSearchQA、MedicationQA、LiveQA)中随机抽取了一些例子,并请五位临床医生组成的小组提供示范性答案。这些临床医生分别来自美国和英国并在初级保健、外科、内科和儿科方面具有专业经验。然后,临床医生将他们认为不是指导模型的好例子的问题/答案对过滤掉。这通常发生在临床医生认为他们无法为某一问题产生 "理想 "的模型答案时,例如,如果回答某一问题所需的信息不为人所知。本文留下了40个横跨HealthSearchQA、MedicationQA和LiveQA的例子,用于指导提示调整训练。由此产生的模型,Med-PaLM,与Flan-PaLM一起用于MultiMedQA评估。

上图展示了本文关注的临床医生评估的不同维度。其中包括与科学共识的一致性,伤害的可能性和可能性,理解的证据,推理和检索能力,答案中是否存在不恰当的、不正确的或缺失的内容以及偏见的可能性。本文使用一个临床医生库来评估模型和人类生成的答案在这些方面的质量。

上图展示了临床医生以及本文的两个模型对理解、检索和推理能力的评价的正确性。结果表明Med-PaLM只有5.0%的时间显示出任何不正确的理解。另一方面,关于正确检索医学知识的证据,本文发现临床医生答案的得分是97.8%,而Flan-PaLM的得分只有76.3%,但是经过指令提示调整的Med-PaLM模型的得分是95.4%,这减少了该模型与临床医生相比的劣势。
创新点
-
证明了模型容量扩充、指令微调策略对于医学问答任务的性能提升,超越了之前的在生物医学语料上训练的模型。
-
本文展示了人类评估的重要性,即使最先进的LLM也会产生不适合的答案,指导提示的微调有助于改善与准确性、事实性、一致性、安全性、危害性和偏见有关的因素,帮助缩小与临床专家的差距,使这些模型更接近于真实世界的临床应用。
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢