- 简介将人工智能(AI),特别是大型语言模型(LLMs),整合到临床诊断过程中,有望显著提高医疗保健的效率和可访问性。虽然LLMs在医疗领域已经显示出一定的潜力,但它们在临床诊断中的应用仍未得到充分开发,特别是在高度复杂的、针对特定患者的决策需要做出的真实临床实践中。目前在这一领域中对LLMs的评估往往范围狭窄,重点集中在特定疾病或专业领域,并采用简化的诊断任务。为了弥补这一差距,我们引入了CliBench,这是一个从MIMIC IV数据集开发出来的新型基准,提供了对LLMs在临床诊断中能力的全面而现实的评估。这个基准不仅涵盖了各种专业中的各种医疗病例的诊断,而且还包括具有临床意义的任务:治疗程序识别、实验室测试订购和药物处方。支持结构化输出本体的CliBench可以进行精确和多颗粒度的评估,提供对LLM在所需颗粒度的各种临床任务的能力的深入了解。我们进行了领先LLMs的零-shot评估,以评估它们在临床决策方面的熟练程度。我们的初步结果揭示了当前LLMs在临床设置中的潜力和局限性,为LLM驱动的医疗保健的未来发展提供了宝贵的见解。
-
- 图表
- 解决问题本论文旨在探讨如何将大型语言模型(LLMs)应用于临床诊断过程中,以提高医疗保健的效率和可访问性。然而,目前在真实临床实践中,LLMs在临床诊断中的应用仍未得到充分探索。
- 关键思路本论文提出了一个名为CliBench的基准测试,它涵盖了来自不同专业的各种医疗病例的诊断,并包括治疗程序识别、实验室测试订购和药物处方等具有临床意义的任务。通过结构化输出本体支持,CliBench可以进行精确的多粒度评估,从而深入了解LLMs在不同临床任务上的能力。
- 其它亮点本论文的亮点包括:提出了一个全面而现实的LLMs能力评估基准测试CliBench,对当前LLMs在临床决策中的潜力和局限性进行了评估,为未来的LLM驱动医疗保健提供了有价值的见解。
- 近期在这个领域中的相关研究包括:《基于深度学习的医学图像分析综述》、《医学图像分析的深度学习方法综述》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流