RadioRAG: Factual Large Language Models for Enhanced Diagnostics in Radiology Using Dynamic Retrieval Augmented Generation

2024年07月22日
  • 简介
    大型语言模型(LLMs)已经推动了医学人工智能(AI)领域的发展。然而,LLMs通常会基于静态训练数据生成过时或不准确的信息。检索增强生成(RAG)通过整合外部数据源来缓解这种情况。虽然以前的RAG系统使用预先组装的固定数据库,但灵活性有限,我们开发了放射学RAG(RadioRAG)作为一种端到端的框架,可以实时从权威放射学在线来源中检索数据。RadioRAG使用专用的放射学问答数据集(RadioQA)进行评估。我们评估了各种LLMs在回答放射学特定问题时,是否可以通过RAG访问其他在线信息来提高诊断准确性。使用RSNA Case Collection中跨放射学子专业的80个问题和24个额外的专家策划的问题进行评估,其中正确的标准答案可用。LLMs(GPT-3.5-turbo、GPT-4、Mistral-7B、Mixtral-8x7B和Llama3 [8B和70B])被提示是否使用RadioRAG。RadioRAG实时从www.radiopaedia.org检索上下文特定的信息,并将其合并到回复中。RadioRAG始终提高了所有LLMs的诊断准确性,相对提高范围从2%到54%不等。在放射学子专业中,它与没有RAG的问题回答相匹配或超过,特别是在乳腺成像和急诊放射学方面。然而,改进程度因模型而异;GPT-3.5-turbo和Mixtral-8x7B-instruct-v0.1看到了显著的增益,而Mistral-7B-instruct-v0.2没有改进,突出了其有效性的差异性。LLMs受益于提供超出其训练数据的领域特定数据。对于放射学而言,RadioRAG建立了一个强大的框架,可以大大提高放射学问答中的诊断准确性和事实性。
  • 图表
  • 解决问题
    本论文旨在解决大型语言模型(LLMs)在医学领域生成过时或不准确信息的问题,提出了一种检索增强生成(RAG)的方法,并开发了一个实时检索来自权威放射学在线资源的框架——RadioRAG。
  • 关键思路
    RadioRAG通过实时从权威放射学在线资源中检索数据来改善LLMs的诊断准确性,特别是在乳腺成像和急诊放射学方面,建立了一个强大的框架。
  • 其它亮点
    论文使用了一个专门的放射学问答数据集(RadioQA),并评估了不同LLMs在有无RAG的情况下回答放射学问题的诊断准确性。实验结果表明,RadioRAG显著提高了所有LLMs的诊断准确性,相对改进范围在2%至54%之间。
  • 相关研究
    最近的相关研究包括使用RAG来解决LLMs生成不准确信息的问题,以及将RAG应用于其他医学领域。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论