CLUE: A Clinical Language Understanding Evaluation for LLMs

2024年04月05日
  • 简介
    大型语言模型(LLMs)已经显示出在患者护理、诊断和行政流程方面有显著的潜力。新兴的生物医学LLMs解决了医疗保健特定挑战,包括隐私要求和计算限制。然而,这些模型的评估主要局限于非临床任务,这些任务并不能反映实际临床应用的复杂性。此外,还没有对生物医学LLMs和通用领域LLMs在临床任务上进行彻底比较。为了填补这一空白,我们提出了临床语言理解评估(CLUE),这是一个针对实际临床任务评估LLMs的基准。CLUE包括两个新的数据集,分别来自MIMIC IV出院信和四个现有任务,旨在测试LLMs在医疗保健环境中的实际适用性。我们的评估涵盖了几种生物医学和通用领域的LLMs,为其临床表现和适用性提供了见解。CLUE代表了朝着在医疗保健中评估和开发LLMs的标准化方法迈出的一步,以使未来的模型开发与临床应用的实际需求相一致。我们发布了我们的评估和数据生成脚本:https://github.com/TIO-IKIM/CLUE。
  • 图表
  • 解决问题
    评估生物医学大语言模型在实际临床任务中的表现和适用性。
  • 关键思路
    提出了一种用于评估生物医学大语言模型的基准测试CLUE,并使用两个新数据集和四个现有任务对多个生物医学和通用领域的大语言模型进行了评估。
  • 其它亮点
    CLUE基准测试可以帮助标准化生物医学大语言模型的评估和开发,以满足临床应用的实际需求。论文提供了数据集和代码,方便其他研究人员进行相关研究。
  • 相关研究
    最近的相关研究包括《BioBERT: a pre-trained biomedical language representation model for biomedical text mining》和《ClinicalBERT: Modeling Clinical Notes and Predicting Hospital Readmission》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论