End-to-End Agentic RAG System Training for Traceable Diagnostic Reasoning

向作者提问

NEW

简介

准确的医学诊断受到医学大语言模型知识差距和幻觉问题的阻碍。尽管检索增强和工具辅助的方法有所帮助，但其效果受限于对外部知识的利用不足以及反馈与推理过程之间的可追溯性较差。为了解决这些挑战，我们提出了 Deep-DxSearch，这是一个采用强化学习（RL）端到端训练的代理式 RAG 系统，能够实现可追溯的、基于检索增强的医学诊断推理。在 Deep-DxSearch 中，我们首先构建了一个大规模的医学检索语料库，包含患者病历和可靠的医学知识来源，以支持各种诊断场景下的检索感知推理。更重要的是，我们将大语言模型（LLM）设定为核心代理，将检索语料库作为其环境，通过在格式、检索、推理结构和诊断准确性方面设计定制化的奖励机制，从而利用强化学习从大规模数据中演化出代理式的 RAG 策略。实验表明，我们的端到端代理式强化学习训练框架在多个数据中心的表现始终优于提示工程和无需训练的 RAG 方法。训练完成后，Deep-DxSearch 在诊断准确性方面实现了显著提升，在常见病和罕见病的诊断任务中，无论是分布内还是分布外设置下，其表现均优于 GPT-4o、DeepSeek-R1 以及其他医学专用诊断基线模型。此外，关于奖励机制设计和检索语料库组件的消融实验进一步确认了它们的关键作用，凸显了我们方法相较于传统实现的独特性和有效性。最后，案例研究与可解释性分析揭示了 Deep-DxSearch 在诊断策略方面的改进，深入解释了其性能提升的来源，也为临床医生提供更可靠和精准的初步诊断支持。详见 https://github.com/MAGIC-AI4Med/Deep-DxSearch。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决医疗大语言模型在诊断中因知识差距和幻觉问题导致准确率受限的问题，并改善现有检索与工具增强方法在外部知识利用不足和反馈-推理可追溯性差的缺陷。
关键思路

论文提出Deep-DxSearch，一种基于强化学习（RL）的端到端训练的代理RAG系统，将LLM作为核心代理，通过与检索环境交互，结合格式、检索、推理结构和诊断准确性的定制奖励，实现可追溯的检索增强推理。
其它亮点

1. Deep-DxSearch在多个医疗数据集上显著优于GPT-4o、DeepSeek-R1等强诊断基线模型，尤其在常见和罕见病诊断中表现优异。 2. 实验涵盖分布内和分布外设置，并通过消融实验验证奖励设计和检索库组件的重要性。 3. 作者开源代码（GitHub链接：https://github.com/MAGIC-AI4Med/Deep-DxSearch），增强了可复现性和后续研究潜力。 4. 通过案例研究和可解释性分析，展示了诊断策略的改进，有助于临床医生做出更可靠的初步诊断。
相关研究

1. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks (Lewis et al., 2020) 2. Med-PaLM: Scaling Medical Language Models on Conversational Tasks 3. ChatDoctor: A Medical Domain-Specific Chatbot System Using Transformer-Based Pretrained Models 4. ERM: Enhanced Retrieval-Augmented Medical Question Answering via Multi-Task Learning 5. Improving Medical Question Answering with Domain-Specific Contextual Embeddings

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问