MedReseacher-R1: Expert-Level Medical Deep Researcher via A Knowledge-Informed Trajectory Synthesis Framework

向作者提问

NEW

简介

近期，基于大语言模型（LLM）的智能代理取得了令人瞩目的进展，在多个领域展现出强大能力，尤其是在信息检索与综合等复杂任务中表现突出的深度研究系统。尽管通用型的深度研究代理已显示出卓越的能力，但在医学领域仍面临显著挑战，已有研究表明，即使是领先的商业闭源系统，在复杂的医学基准测试中也仅能实现有限的准确率。其主要局限性包括：（1）模型缺乏足够的密集医学知识以支持临床推理；（2）框架受限于缺乏专为医学场景设计的检索工具。为解决这些问题，我们提出了一种医学深度研究代理，并通过两项核心创新加以实现。首先，我们开发了一种新的数据合成框架，利用医学知识图谱，从罕见医学实体周边的子图中提取最长路径，从而生成复杂的多跳问答对。其次，我们在通用工具的基础上，整合了一个定制的私有医学检索引擎，从而实现精准的医学信息综合。我们的方法在12个医学专科领域中生成了超过2100条多样化推理路径，每条路径平均使用4.2次工具交互。通过结合监督微调和在线强化学习的两阶段训练策略，并采用复合奖励机制，我们的MedResearcher-R1-32B模型展现出卓越的性能，在多项医学基准测试中树立了新的最先进水平，同时在通用深度研究任务中也保持了良好的竞争力。我们的研究表明，在架构设计、工具开发和训练数据构建方面进行有针对性的领域创新，可以使规模较小的开源模型在专业领域超越更大规模的闭源系统。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

论文旨在解决当前基于大语言模型（LLM）的通用深度研究代理在医疗领域表现不佳的问题，主要体现在（1）模型缺乏足够的密集医学知识用于临床推理，（2）框架缺少针对医疗场景的专用检索工具。这是一个较新的问题，因为随着LLM的发展，其在专业领域的局限性逐渐显现。
关键思路

论文提出了一种医疗深度研究代理的解决方案，其核心创新包括：（1）利用医学知识图谱生成复杂的多跳问答对，以增强模型的医学推理能力；（2）集成定制的私有医学检索引擎，结合通用工具，提升医学信息的合成能力。相比现有研究，该方法强调领域特定的数据合成和工具设计，使较小的开源模型在医疗领域表现优于大型闭源系统。
其它亮点

1. 构建了包含2100+条医疗轨迹的数据集，覆盖12个医学专科，每条轨迹平均包含4.2次工具交互 2. 采用两阶段训练范式：监督微调 + 基于复合奖励的在线强化学习 3. 模型MedResearcher-R1-32B在多个医疗基准测试中达到SOTA，同时在通用任务上保持竞争力 4. 验证了领域特定架构创新、工具设计和数据构建对专业领域LLM性能提升的有效性
相关研究

1. Domain Adaptation for Large Language Models: A Survey (2023) 2. Medical Knowledge Graphs: A Foundation for Explainable AI in Healthcare (2022) 3. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks (2020) 4. Benchmarking Large Language Models in Medical Question Answering (2023) 5. Enhancing Clinical Reasoning with Multi-hop Question Answering Datasets (2021)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问