- 简介LLMs在各种自然语言处理应用中取得了显著的性能进展。然而,在医学领域,LLMs仍然难以满足精度和可靠性的严格要求,并面临着许多临床应用方面的挑战。现有的用于评估由LLMs驱动的医疗代理的临床诊断评估基准存在严重的局限性。首先,大多数现有的医学评估基准面临数据泄漏或污染的风险。其次,现有的基准经常忽略现代医学实践中多个部门和专业的特点。第三,现有的评估方法仅限于多项选择题,与真实世界的诊断场景不符。最后,现有的评估方法缺乏对端到端真实临床场景的全面评估。这些基准的局限性反过来阻碍了LLMs和医疗代理的进展。为了解决这些局限性,我们介绍了ClinicalLab,这是一个全面的临床诊断代理对齐套件。ClinicalLab包括ClinicalBench,一个端到端的多部门临床诊断评估基准,用于评估医疗代理和LLMs。ClinicalBench基于涵盖24个部门和150种疾病的真实案例。ClinicalLab还包括四个新颖的指标(ClinicalMetrics),用于评估LLMs在临床诊断任务中的有效性。我们评估了17个LLMs,并发现它们的性能在不同部门之间存在显著差异。基于这些发现,在ClinicalLab中,我们提出了ClinicalAgent,这是一个与现实世界临床诊断实践相一致的端到端临床代理。我们系统地调查了ClinicalAgent的变体在ClinicalBench上的性能和适用场景。我们的研究结果表明,在设计医疗代理时,与现代医学实践的对齐非常重要。
-
- 图表
- 解决问题论文旨在解决LLMs在医疗领域面临的准确性和可靠性严格要求的问题,提出了一个综合性的临床诊断代理对齐套件,包括一个基于真实病例的多科室临床诊断评估基准(ClinicalBench)和四个新的临床指标(ClinicalMetrics)。
- 关键思路ClinicalLab是一个综合性的临床诊断代理对齐套件,包括了一个基于真实病例的多科室临床诊断评估基准和四个新的临床指标。论文通过评估17个LLMs的性能发现它们在不同科室的表现存在显著差异,并提出了一个与现实临床诊断实践相符的ClinicalAgent。
- 其它亮点论文提出了一个新的临床诊断代理对齐套件,包括了一个基于真实病例的多科室临床诊断评估基准和四个新的临床指标。实验评估了17个LLMs的性能,并提出了一个与现实临床诊断实践相符的ClinicalAgent。
- 最近的相关研究包括《BERT for Clinical Text Classification Tasks》、《ClinicalBERT: Modeling Clinical Notes and Predicting Hospital Mortality》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流