Towards Evaluating and Building Versatile Large Language Models for Medicine

2024年08月22日
  • 简介
    在这项研究中,我们提出了MedS-Bench,这是一个全面的基准,旨在评估大型语言模型(LLMs)在临床环境中的表现。与现有的基准不同,现有的基准主要关注多项选择题回答,MedS-Bench涵盖了11个高级临床任务,包括临床报告摘要、治疗建议、诊断、命名实体识别和医学概念解释等。我们使用few-shot prompting评估了六个领先的LLM,例如MEDITRON、Mistral、InternLM 2、Llama 3、GPT-4和Claude-3.5,并发现即使是最复杂的模型也难以应对这些复杂的任务。为了解决这些限制,我们开发了MedS-Ins,这是一个面向医学的大规模指令调整数据集。MedS-Ins包括58个医学定向语言语料库,涵盖122个任务,共计1350万个样本。为了展示数据集的实用性,我们进行了一个概念验证实验,通过对一个轻量级的开源医学语言模型进行指令调整。结果,生成的模型MMedIns-Llama 3在几乎所有临床任务上都显著优于现有模型。为了促进LLMs在临床挑战中的应用进一步发展,我们已经使MedS-Ins数据集完全可访问,并邀请研究界为其扩展做出贡献。此外,我们还推出了MedS-Bench的动态排行榜,计划定期更新测试集以跟踪进展,并增强通用LLMs对医学领域的适应性。排行榜:https://henrychur.github.io/MedS-Bench/。Github:https://github.com/MAGIC-AI4Med/MedS-Ins。
  • 图表
  • 解决问题
    本论文旨在解决大型语言模型在临床环境中的表现问题,提出了一个综合性基准测试集MedS-Bench,并开发了一个大规模指令调整数据集MedS-Ins,以提高模型在医学领域的表现。
  • 关键思路
    MedS-Bench基准测试集涵盖了11个高级临床任务,相比现有基准测试集,MedS-Bench更加全面。MedS-Ins大规模指令调整数据集可用于提高模型在医学领域的表现。作者使用了六个领先的大型语言模型,并发现即使是最先进的模型也难以应对这些复杂任务。
  • 其它亮点
    论文提出了MedS-Bench和MedS-Ins两个数据集,前者涵盖了11个高级临床任务,后者包含了58个医学定向语言语料库,总计13.5万个样本,可用于指令调整。作者进行了实验,发现即使是最先进的大型语言模型也难以应对这些复杂任务。论文开源了数据集和代码,并提供了动态排行榜以跟踪进展。
  • 相关研究
    在临床领域,已有许多基准测试集,如i2b2 NLP挑战赛、n2c2挑战赛等。此外,还有一些研究致力于将大型语言模型应用于医学领域,如BioBERT、ClinicalBERT等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论