CLUE: A Clinical Language Understanding Evaluation for LLMs

2024年04月05日
  • 简介
    大型语言模型(LLMs)已经展示了在患者护理、诊断和行政流程方面显著贡献的潜力。新兴的生物医学LLMs解决了医疗保健中的特定挑战,包括隐私需求和计算限制。然而,这些模型的评估主要局限于非临床任务,这些任务不反映实际临床应用的复杂性。此外,还没有对生物医学和通用领域LLMs在临床任务中进行彻底比较。为了填补这一空白,我们提出了临床语言理解评估(CLUE),这是一个专门评估LLMs在实际临床任务上的基准。CLUE包括两个新的数据集,这些数据集源自MIMIC IV出院信和四个现有的任务,旨在测试LLMs在医疗保健设置中的实际适用性。我们的评估涵盖了几个生物医学和通用领域的LLMs,为其临床表现和适用性提供了见解。CLUE代表了朝着在医疗保健中评估和开发LLMs的标准化方法迈出的一步,以使未来的模型开发与临床应用的实际需求相一致。我们发布了我们的评估和数据生成脚本:https://github.com/dadaamin/CLUE。
  • 图表
  • 解决问题
    本论文旨在解决现有的生物医学大语言模型(LLMs)在临床应用中存在的问题,尤其是在隐私保护和计算约束方面,并比较生物医学LLMs和通用领域LLMs在临床任务上的表现。
  • 关键思路
    该论文提出了一种针对生物医学LLMs的基准测试CLUE,包括两个新数据集和四个既有任务,以测试LLMs在实际临床应用中的实用性。通过对多个生物医学和通用领域LLMs的评估,提供了它们在临床任务中的表现和适用性的见解。
  • 其它亮点
    本论文的亮点包括提出了一个新的基准测试CLUE,用于评估生物医学LLMs在实际临床应用中的表现;提供了两个新的数据集,以及四个既有任务;通过对多个生物医学和通用领域LLMs的评估,提供了它们在临床任务中的表现和适用性的见解。
  • 相关研究
    最近的相关研究包括在生物医学领域中使用LLMs的研究,如《BioBERT: a pre-trained biomedical language representation model for biomedical text mining》和《ClinicalBERT: Modeling Clinical Notes and Predicting Hospital Readmission》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论