Benchmarking Retrieval-Augmented Generation for Medicine

2024年02月20日
  • 简介
    尽管大型语言模型在广泛的医学问答任务上取得了最先进的性能,但它们仍然面临着虚假信息和过时知识的挑战。检索增强生成(RAG)是一种有前途的解决方案,并已被广泛采用。然而,RAG系统可能涉及多个灵活的组件,并且缺乏有关各种医学目的的最佳RAG设置的最佳实践。为了系统地评估这种系统,我们提出了医学信息检索增强生成评估(MIRAGE),这是一个首创性的基准,包括来自五个医学问答数据集的7,663个问题。使用MIRAGE,我们通过本文介绍的MedRAG工具包,在41种不同语料库、检索器和主干LLM的组合上进行了超过1.8万亿个提示标记的大规模实验。总体而言,MedRAG将六种不同的LLM的准确性提高了高达18%,超越了思维链提示的性能,将GPT-3.5和Mixtral的性能提升到了GPT-4级。我们的结果表明,各种医学语料库和检索器的组合实现了最佳性能。此外,我们发现了医学RAG中的对数线性缩放特性和“中间丢失”效应。我们相信我们的综合评估可以作为实施医学RAG系统的实用指南。
  • 图表
  • 解决问题
    论文旨在解决基于大型语言模型(LLMs)的医疗问答系统存在的幻觉和过时知识问题,提出了一种检索增强生成(RAG)的解决方案,并通过MIRAGE基准测试对41种不同的组合进行了大规模实验。
  • 关键思路
    论文提出的MedRAG系统通过结合不同的医疗语料库和检索器,将六种不同的LLMs的准确性提高了高达18%,并发现了医疗RAG的对数线性缩放特性和“中间丢失”效应。
  • 其它亮点
    论文使用MedRAG工具包对5个医疗QA数据集的7663个问题进行了评估,展示了实验结果。实验中使用了超过1.8万亿个提示标记,发现结合不同的医疗语料库和检索器的组合可以实现最佳性能。论文的实验结果可以作为实现医疗RAG系统的实用指南。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,例如“BERT for Medical Question Answering”和“Medical Dialogue Systems”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论