M-QALM: A Benchmark to Assess Clinical Reading Comprehension and Knowledge Recall in Large Language Models via Question Answering

向作者提问

NEW

简介

在高风险领域（如医疗保健）中，有大量研究致力于将大型语言模型（LLMs）应用于执行各种任务。尽管它们很受欢迎，但人们缺乏对LLMs在临床和生物医学领域中回忆相关知识并将其与所提供的信息结合的程度和贡献因素的了解：这是成功完成下游任务的基本先决条件。为了填补这一空白，我们使用多项选择和抽象问答来对三个全科和三个专科生物医学子领域的22个数据集进行大规模实证研究。我们对15个LLMs的表现进行了多方面的分析，进一步分解了子领域、知识来源和模型架构，揭示了指令调整等成功因素，这些因素有助于提高回忆和理解能力。我们进一步表明，虽然最近提出的领域自适应模型可能缺乏足够的知识，但直接在我们收集的医学知识数据集上进行微调显示出令人鼓舞的结果，甚至可以推广到未见过的专业子领域。我们通过技能导向的手动错误分析来补充定量结果，发现模型在简单回忆必要知识和将其与所呈现的上下文整合的能力之间存在显著差距。为了促进该领域的研究和合作，我们与研究社区分享了我们的资源、标准化方法和评估结果，以促进语言模型中临床知识表示学习的进一步发展。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

解决问题：论文试图探讨如何提高大型语言模型在医疗领域的应用效果，以及如何让模型能够结合所呈现的信息和相关知识进行推理。
关键思路

关键思路：通过使用多项选择和抽象问答的方法，对15个大型语言模型在医疗领域的22个数据集上进行了大规模实验，探究了模型性能的多个方面，包括子领域、知识来源和模型架构等。实验结果表明，调整指令可以提高模型的召回和理解能力，而直接在医疗知识数据集上进行微调可以获得令人鼓舞的结果。
其它亮点

其他亮点：论文提供了一个标准化的方法和评估结果，以促进临床知识表示学习领域的进一步发展。此外，手动错误分析揭示了模型在整合所呈现的上下文和必要知识方面存在显著差距。
相关研究

相关研究：最近的相关研究包括“Adapting BERT for Clinical Question Answering: Lessons Learned from the BioASQ Task”和“ClinicalBERT: Modeling Clinical Notes and Predicting Hospital Readmission”等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问