Do Large Language Models understand Medical Codes?

2024年03月16日
  • 简介
    最近人工智能研究的总体目标是稳步向实现人工通用智能(AGI)迈进,这促使对大型语言模型(LLM)在各种任务和领域进行评估。其中一个领域是医疗保健,在这个领域,LLM可以通过协助各种任务大大有益于临床实践。然而,这些模型也容易在面对无法充分解决的查询时产生“幻觉”或不正确的响应,引起担忧和怀疑,特别是在医疗保健界。因此,在这项工作中,我们调查LLM是否理解医疗保健实践中广泛使用的医疗代码的内在含义。我们评估各种现成的LLM(例如GPT,LLaMA等)和专门设计用于生物医学应用的LLM,以评估它们对这些特定领域术语的认识和理解。我们的结果表明,这些模型不理解医疗代码的含义,突显了需要更好地表示这些在医疗保健中广泛使用的字母数字代码的细微差别的需求。我们呼吁改进策略,以有效地捕捉和表示LLM内的医疗代码和术语的细微差别,使它们成为医疗保健专业人员更可靠和值得信赖的工具。
  • 图表
  • 解决问题
    评估大型语言模型对医疗代码的理解能力,以提高其在医疗领域的可靠性和可信度。
  • 关键思路
    通过评估多种大型语言模型的表现,发现它们并不理解医疗代码的内在含义,因此需要更好的表示策略来捕捉医疗代码的细微差别和术语,以提高模型的可靠性和可信度。
  • 其它亮点
    实验评估了多种大型语言模型在医疗代码理解方面的表现,并发现它们的表现并不理想。研究呼吁改进医疗代码的表示策略,以提高模型的可靠性和可信度。
  • 相关研究
    近期的研究主要集中在大型语言模型在医疗领域的应用,如自动诊断和病历记录。相关研究包括:《ClinicalBERT: Modeling Clinical Notes and Predicting Hospital Mortality》、《BERT for Clinical Text Classification: Is Finetuning the Only Viable Option?》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论