MedReseacher-R1: Expert-Level Medical Deep Researcher via A Knowledge-Informed Trajectory Synthesis Framework

2025年08月20日
  • 简介
    近期,基于大语言模型(LLM)的智能代理取得了令人瞩目的进展,在多个领域展现出强大能力,尤其是在信息检索与综合等复杂任务中表现突出的深度研究系统。尽管通用型的深度研究代理已显示出卓越的能力,但在医学领域仍面临显著挑战,已有研究表明,即使是领先的商业闭源系统,在复杂的医学基准测试中也仅能实现有限的准确率。其主要局限性包括:(1)模型缺乏足够的密集医学知识以支持临床推理;(2)框架受限于缺乏专为医学场景设计的检索工具。 为解决这些问题,我们提出了一种医学深度研究代理,并通过两项核心创新加以实现。首先,我们开发了一种新的数据合成框架,利用医学知识图谱,从罕见医学实体周边的子图中提取最长路径,从而生成复杂的多跳问答对。其次,我们在通用工具的基础上,整合了一个定制的私有医学检索引擎,从而实现精准的医学信息综合。我们的方法在12个医学专科领域中生成了超过2100条多样化推理路径,每条路径平均使用4.2次工具交互。 通过结合监督微调和在线强化学习的两阶段训练策略,并采用复合奖励机制,我们的MedResearcher-R1-32B模型展现出卓越的性能,在多项医学基准测试中树立了新的最先进水平,同时在通用深度研究任务中也保持了良好的竞争力。我们的研究表明,在架构设计、工具开发和训练数据构建方面进行有针对性的领域创新,可以使规模较小的开源模型在专业领域超越更大规模的闭源系统。
  • 作者讲解·1
  • 图表
  • 解决问题
    论文旨在解决当前基于大语言模型(LLM)的通用深度研究代理在医疗领域表现不佳的问题,主要体现在(1)模型缺乏足够的密集医学知识用于临床推理,(2)框架缺少针对医疗场景的专用检索工具。这是一个较新的问题,因为随着LLM的发展,其在专业领域的局限性逐渐显现。
  • 关键思路
    论文提出了一种医疗深度研究代理的解决方案,其核心创新包括:(1)利用医学知识图谱生成复杂的多跳问答对,以增强模型的医学推理能力;(2)集成定制的私有医学检索引擎,结合通用工具,提升医学信息的合成能力。相比现有研究,该方法强调领域特定的数据合成和工具设计,使较小的开源模型在医疗领域表现优于大型闭源系统。
  • 其它亮点
    1. 构建了包含2100+条医疗轨迹的数据集,覆盖12个医学专科,每条轨迹平均包含4.2次工具交互 2. 采用两阶段训练范式:监督微调 + 基于复合奖励的在线强化学习 3. 模型MedResearcher-R1-32B在多个医疗基准测试中达到SOTA,同时在通用任务上保持竞争力 4. 验证了领域特定架构创新、工具设计和数据构建对专业领域LLM性能提升的有效性
  • 相关研究
    1. Domain Adaptation for Large Language Models: A Survey (2023) 2. Medical Knowledge Graphs: A Foundation for Explainable AI in Healthcare (2022) 3. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks (2020) 4. Benchmarking Large Language Models in Medical Question Answering (2023) 5. Enhancing Clinical Reasoning with Multi-hop Question Answering Datasets (2021)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问