- 简介与评估计算和基于逻辑的推理不同,当前用于评估医学中大型语言模型(LLMs)的基准主要侧重于涉及领域知识和描述性推理的问答。虽然这些定性能力对于医学诊断至关重要,但在现实世界的情况下,医生经常使用遵循定量方程和基于规则的推理范例的临床计算器,以进行基于证据的决策支持。为此,我们提出了MedCalc-Bench,这是一个首次提出的数据集,重点评估LLMs的医学计算能力。MedCalc-Bench包含一个评估集,其中包含来自55个不同医学计算任务的1000多个手动审核的实例。MedCalc-Bench中的每个实例都包括一个患者笔记,一个请求计算特定医学值的问题,一个基本真实答案以及一个逐步说明如何获得答案的步骤。虽然我们的评估结果显示了LLMs在这个领域的潜力,但它们都不足以在临床环境中有效。常见问题包括提取不正确的实体,不使用正确的方程或规则来执行计算任务,或者错误地执行计算的算术运算。我们希望我们的研究突显了LLMs在医学环境中的定量知识和推理差距,鼓励未来改进LLMs以适用于各种临床计算任务。
-
- 图表
- 解决问题本论文旨在解决医学领域中大型语言模型(LLMs)的数量计算能力不足的问题,提出了一个评估数据集MedCalc-Bench,包含55种不同的医学计算任务,共1000多个实例。研究发现当前的LLMs在提取实体、选择正确的计算公式或规则以及执行正确的算术计算等方面存在问题,无法在临床环境中发挥作用。这是一个新问题。
- 关键思路MedCalc-Bench是一个针对LLMs在医学计算方面的评估数据集,包含了详细的步骤解释和正确答案。研究发现LLMs在医学计算方面存在数量知识和推理能力的缺陷,需要进一步改进。
- 其它亮点研究通过MedCalc-Bench数据集评估了当前LLMs在医学计算方面的表现,并提出了改进方案。实验结果表明,LLMs在医学计算方面存在一些问题,但也有潜力。这项工作为医学领域的LLMs提供了新的评估标准,帮助研究人员更好地了解LLMs的能力和局限性。
- 在医学领域中,还有一些相关的研究,如基于知识图谱的医学问答系统、基于深度学习的医学图像分析等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流