Nat. Biomed. Eng. | 大型推理模型：医学中的“思考机器”

DRUGONE

传统人工智能已经在识别关联关系和预测模式方面取得了显著成就，但其在因果推理方面的局限，仍然阻碍其应对需要深层专业知识的复杂临床问题。大型推理模型的出现，为人工智能从相关性分析走向模拟人类分析过程提供了新的机会。将其应用于医学实践，医学推理人工智能旨在构建能够直接参与患者照护、调用多样化临床数据和决策支持工具，并通过临床医生反馈与患者结局不断优化推理过程的系统。与在固定参数内运行的传统模型不同，医学推理人工智能有望重新定义临床人工智能，使其成为一种“思考伙伴”，从而更细致地理解复杂医学场景。

研究人员认为，医学推理人工智能可能成为临床协作助手，通过管理复杂证据来增强医患沟通和临床决策。这一范式转变有望深刻扩展人们对医学的理解，使临床医生从繁重的信息整合中解放出来，将更多时间投入直接患者照护，同时提供更清晰的临床洞察并加速医学发现。

大型推理模型的出现代表了人工智能发展的重要阶段。与早期主要依赖模式识别并直接输出结果的系统不同，这类模型能够呈现多步骤推理路径。正是这种显式推理能力，使其在数学、计算机编程等需要系统性推理的领域取得了显著进展。这些领域的成功提示，大型推理模型可能同样适用于其他依赖证据整合、结构化判断和透明决策过程的复杂学科。

医学是一个尤其适合探索大型推理模型能力的领域。临床实践依赖结构化决策、系统性证据整合和可解释推理，这些特征与患者安全、决策准确性和临床信任密切相关。同时，医生的认知过程也与现代推理型人工智能系统的设计原则高度一致。临床医生通常需要整合广泛医学知识，在复杂或非典型病例中进行自我反思，并有策略地启动更深入的分析过程。这些能力与当代推理型人工智能架构的核心机制相呼应。因此，医学不仅需要推理能力，也为评估先进人工智能推理能力提供了理想场景。

研究人员提出“医学推理人工智能”作为将先进大型推理模型转化到临床实践中的新范式。该框架应综合多种人工智能创新，包括强化式后训练、提示工程和智能体建模。与传统医学人工智能模型不同，医学推理人工智能并不局限于固定参数和预设数据集，而是具有三个区别性标准。首先，也是最重要的一点，它应在整个推理过程中持续保持“人在环路中”，由临床医生提供专业知识和监督，由患者提供情境信息与反馈。其次，它应在统一推理框架内协调多个医学信息系统，动态整合电子健康记录、实时实验室系统和专业医学数据库，而不是局限于静态知识库。第三，它应具备受监督的反思与适应能力，能够回顾性分析既往决策并提出推理策略改进，但所有修改都必须在明确的临床批准后才能实施。

这些能力使医学推理人工智能有望推动多个关键临床领域的发展。它不再只是被动检索信息，而是可能成为主动临床协作者，增强医患互动，提供透明且可审计的诊断推理，并支持更加个体化的治疗策略。与孤立运行的传统医学人工智能不同，医学推理人工智能能够整合多源数据、反思自身推理过程，并通过临床经验持续适应，从而支持从床旁决策到药物发现与开发的综合患者照护。这意味着医学人工智能的角色将从专门诊断工具转变为能够支持复杂、多方面临床工作流的综合推理伙伴。

在本文中，“推理”被理解为一种可审计的自然语言过程：模型能够整合多源证据，形成中间推断，生成可检验假设，评估不确定性，并给出带有明确理由的建议。目前，临床实践中尚不存在完整的医学推理人工智能系统。尽管新兴研究已经在特定诊断领域展示了推理模型的潜力，但这些概念验证研究与研究人员设想的整合式、多模态医学推理系统之间仍存在明显差距。从研究走向临床实施所面临的挑战，也与传统医学人工智能显著不同。传统人工智能通常针对定义明确的任务进行验证，而医学推理人工智能需要跨多个临床领域展现更广泛的推理能力，因此其评价方式必须超越简单诊断准确率，转向对推理过程本身的验证。

图1｜医学推理人工智能（MRAI）概览。

医学推理人工智能的特征

从传统医学人工智能走向医学推理人工智能，可能代表着人工智能支持临床实践方式的重要转变。研究人员提出三个明确标准来定义医学推理人工智能，并将其与现有人工智能系统区分开。这些标准并不是围绕短暂的技术潮流提出，而是锚定于临床需求，因此即使底层技术不断变化，也能为这一概念提供稳定基础。

持续的人在环路交互

医学推理人工智能的第一个也是最基本标准，是在整个推理过程中持续纳入临床医生和患者。临床医生提供专业判断和监督，患者提供具体情境和反馈。这一点使其区别于现有那些独立生成建议或预测结果的人工智能系统。

临床医生可以通过多种机制参与系统推理。当系统遇到诊断不确定性或罕见疾病时，它不应在缺乏把握的情况下继续推理，而应主动请求临床医生介入。例如，当实验室结果提示一种非典型表现时，系统应暂停推理，并请求医生对结果进行解释后再继续。除了在推理过程中提供指导，临床医生还需要在临床决策执行前审查推理链。因此，医学推理人工智能还需要配套工具，帮助医生高效检查复杂推理路径。

患者则通过两个途径提供情境和反馈。在主动推理过程中，当临床信息不完整或含糊时，系统会提出有针对性的澄清问题。例如，当症状描述不够清晰时，系统可以通过结构化对话引导患者补充更精确的细节。此外，治疗后的患者结局也会成为反馈来源，帮助临床医生判断此前的推理方式是否合理，并在临床监督下用于未来系统优化。

这种双向参与机制支持医学推理人工智能作为临床工作流中的协作工具，而不是自主决策者。它有助于在整个推理过程中维持临床责任边界和患者安全。

协调调用广泛医学工具

第二个标准要求医学推理人工智能能够在统一推理框架内协调多个医学信息系统。与局限于静态知识库的普通人工智能系统不同，医学推理人工智能能够动态整合外部工具和资源来支持决策。这一能力可能改变人工智能系统访问和综合医学信息的方式。其作用不仅是调用单一工具，而是同时整合电子健康记录、实时实验室系统、专业医学数据库和临床指南。

例如，当评估一名症状复杂的患者时，医学推理人工智能可以同时访问患者历史电子病历，检索近期相关病例报告，查询药物相互作用数据库，并连接医院实验室系统以追踪待出结果。这种多工具协调能力，使其能够基于完整临床信息提供更全面的循证建议。其整合过程也不仅是被动检索数据，还可以主动使用计算工具完成药代动力学计算、遗传变异解释或风险预测等任务，从而将专门分析能力嵌入临床工作流。最终，系统的推理过程会跨异质信息源综合证据，支持以患者特异性数据和最新医学知识为基础的临床决策。

受监督的反思与适应

第三个标准是医学推理人工智能应具备受监督的反思与适应能力，使其在保持临床监督的同时持续改进。与部署后保持不变的静态模型不同，医学推理人工智能应包含系统性评估和迭代优化机制，并在临床医生监督下调整自身推理过程。

这种反思能力使系统能够回顾既往决策，识别病例之间的规律，并提出推理策略调整方案。当某一诊断经过后续检测被证实或否定时，系统可以回顾自身推理链，分析哪些逻辑是可靠的，哪些环节存在缺陷。例如，如果系统在诊断非典型表现时反复低估某些临床特征的重要性，它可以识别这一模式并提出调整建议。然而，这些建议不会被自动执行，而是提交给临床医生评估。医生需要判断这些修改是否符合临床指南、模式识别是否具有医学合理性，以及证据基础是否充分。只有在获得明确临床批准后，相关优化才会被整合进系统。

这种受监督的适应机制，使医学推理人工智能能够随经验积累而演化，同时始终扎根于医学专业知识和临床标准，避免自主吸收潜在错误模式。反思过程运行在临床监督框架内，有助于确保系统改进体现的是经过领域专家验证的真实医学洞察，而不是单纯统计相关性。通过计算反思与人工验证相结合，医学推理人工智能可以在积累经验的同时保持与既有临床实践一致。

机会与临床潜力

研究人员强调，医学推理人工智能在多个医学关键领域具有广泛机会。尽管这些领域已经存在人工智能应用，但凭借更强的推理能力，医学推理人工智能有望提供更智能的解决方案。

增强医患连接

人工智能，尤其是大型语言模型的最新进展，为临床实践和医学教育中的信息收集与综合提供了新的方式。医学推理人工智能可能改善医患互动的动态过程，从初始信息采集到医务人员持续教育，都有潜在价值。它有望从被动分析工具转变为互动中的主动协作伙伴。

医学推理人工智能可以将医学聊天机器人从被动的信息检索器提升为真正的临床协作者。传统系统通常只对用户提示做出回应，而医学推理人工智能驱动的“协同医生”可以主动参与患者照护。例如，在复杂诊断情境中，一个医学推理人工智能智能体可能识别患者病史中缺失或模糊的细节，提出有针对性的追问，并实时自主查询药物数据库或最新临床指南等外部资源。这种过程类似人类临床医生的迭代式、适应性推理。通过主动寻求信息并综合来自多种权威来源的数据，医学推理人工智能不仅提供静态答案，还能给出动态、情境感知的建议，从而支持更准确、更及时和更个体化的临床决策。这种方式可使临床医生获得更深入的证据综合与更高效的工作流，最终改善患者照护。

在医学教育中，医学推理人工智能有望将虚拟患者模拟转化为真正互动和自适应的学习体验。当前许多人工智能虚拟患者在真实场景中仍难以提出临床相关问题或综合复杂信息，而医学推理人工智能应能够利用多步骤推理，与学习者进行更真实的互动。例如，当学生遗漏关键问诊线索时，医学推理人工智能虚拟患者可以识别这一问题，并以细微方式提示进一步询问，类似经验丰富的带教医生。通过持续适应培训者的临床推理，并提供有针对性的反馈，医学推理人工智能能够支持更真实、更个性化的教育，帮助提升诊断技能和批判性思维。这种智能互动水平可能缩小模拟训练与真实临床照护需求之间的差距。

可审计的临床诊断

人工智能已经改变医学诊断格局，其能力早已超越简单异常检测，并在多个专科中提供初步诊断支持。人工智能诊断系统在眼科、皮肤科、肿瘤学和放射学等领域已经表现出与经验丰富临床医生相当甚至更优的水平。通过高效分析大量结构化和非结构化数据，包括医学图像和健康记录，这些系统帮助临床医生提高诊断准确性与效率。

然而，当前许多人工智能模型的复杂性和不透明性，仍然是阻碍临床采纳的重要因素，尤其是在肿瘤学或重症医学等关键诊断决策中。传统人工智能的“黑箱”特征引发了信任和责任归属方面的担忧。医学推理人工智能可能通过使诊断逻辑可审计、透明化来应对这一挑战。与只给出结果的早期诊断模型不同，医学推理人工智能应提供清晰的、逐步展开的推理链。例如，当识别图像中的病灶时，系统应记录每一步推理，将具体图像发现、患者病史和相关指南连接起来，使临床医生能够轻松验证、理解并信任其建议。

医学推理人工智能的一个关键优势，是能够像人类专家一样反思自身诊断推理，并主动寻求更多信息以降低不确定性。近期研究已显示，大型推理模型可通过模拟自我博弈式诊断对话提升表现。此外，医学推理人工智能还应利用专业数据库或其他机器学习模型等外部工具，将诊断建立在最新且可验证的知识基础上。这种智能体式设计不仅可能提高诊断准确性和鲁棒性，还能确保整个过程可追踪、可审计，帮助临床医生满足伦理与法律层面的责任要求。显式规划、反思和动态工具使用相结合，有望将医学人工智能从黑箱转变为临床照护中的透明伙伴。

个体化治疗规划与设计

近年来，人工智能在治疗规划方面的进展主要集中于个体化推荐。算法通过整合遗传因素、病史等信息优化治疗策略，并常借助计算建模和模拟实现。由可穿戴设备采集数据的人工智能实时监测系统，也允许医生及时调整治疗方案。

医学推理人工智能有望进一步推进治疗规划，形成基于数据、动态适应且面向个体患者特征的治疗策略。它可以整合病史、遗传因素和生活方式信息，制定全面、多步骤治疗方案，使干预更精准地适配个体需求。例如，多智能体医学推理人工智能系统可以协调复杂治疗任务，让不同专长的智能体协作分析药物相互作用、识别禁忌证并优化患者特异性策略。一个智能体可聚焦分子层面药物相互作用，另一个智能体考虑药代动力学特征和临床指南，最终共同形成综合治疗建议。

医学推理人工智能还可能利用广泛的生物医学知识检索工具箱，从多个生物医学来源主动获取并综合实时证据。这与传统大型语言模型形成对比，后者可能在精准局部领域知识方面存在不足，或过度依赖某些特定工具。例如，一个医学推理人工智能系统可以检索并综合海量生物医学文献，评估药物与患者状态之间的相互作用，并通过迭代反思持续优化治疗建议。这一流程有助于确保推荐持续符合最新临床指南和真实世界证据，从而降低不良事件风险并改善治疗决策。

药物发现与开发

人工智能已经成为药物发现与开发的重要工具。生成式人工智能技术可辅助文献综述，发现科学数据中此前未被识别的关联，并支持药物靶点假设的形成。此外，人工智能模型已广泛应用于蛋白质结构预测和从头蛋白设计，扩展了潜在候选药物的范围。

医学推理人工智能有潜力通过协调多个专门人工智能智能体，以端到端方式支持药物发现与开发的多个阶段，从假设生成到实验验证均可参与。专门智能体可协作完成虚拟筛选、分子设计和合成路径优化等任务，将大量数据密集型工作无缝交由人工智能处理。这样，人类科学家可以将精力集中于更高层次的决策和创造性问题解决，借助医学推理人工智能更高效地探索庞大化学空间并识别有前景的分子结构。例如，一个智能体可生成数千种新分子结构，另一个智能体模拟它们与治疗靶点的相互作用，第三个智能体则设计最有效的合成与测试实验方案。

医学推理人工智能的一项重要优势，是能够持续反思和适应。它可以通过实时实验结果进行迭代学习，不断优化假设和实验设计，并将数据反馈进模型以提升表现。这种“实验室在环路中”的范式，使系统能够动态调整实验策略，将资源集中于最有前景的化合物，加速药物发现。医学推理人工智能还可广泛使用工具，与高通量筛选系统、分子动力学模拟器和先进实验室机器人等计算与实验平台集成，并在一定程度上自主操作这些平台。它还可以主动获取并利用大量权威临床和基因组数据，从科学文献中发现过去被忽略的联系和新兴趋势，为新药靶点和治疗策略提供线索。这种全面且自我优化的方式，可能显著缩短开发周期并降低成本，使新药更快、更可负担地进入临床。

构建医学推理人工智能

医学推理人工智能系统的基础是大规模预训练模型，主要是基于Transformer的架构，这类模型已经在自然语言理解和生成中展现出巨大潜力。为了将通用模型有效适配到细腻的医学推理任务中，需要将医学数据与专门技术结合，包括高级后训练技术、提示工程与优化策略，以及多智能体建模方法。每一种技术都可能以增量方式增强医学推理人工智能，使其逐步获得适用于复杂临床场景的推理和决策能力。

图2｜构建医学推理人工智能的关键技术。

通过后训练增强静态模型的临床推理

后训练方法通过优化预训练模型，使其内化临床先验和约束，将模型表现从表层模式匹配推进到具备校准判断和可核查理由的假设驱动型临床推理。带有可验证奖励的强化学习已成为激励大型语言模型推理能力的重要方法，它通过模型生成、奖励评估和参数更新的迭代循环，强化准确的推理路径。

在构建医学推理人工智能模型时，这种强化学习可以运行在计算验证环境中，而不是现实临床场景中。该环境结合回顾性临床参考资料，例如真实诊断结果或专家认可的最终决策，并配备基于规则或大型语言模型的检查器作为奖励引擎。奖励引擎通过将模型输出与结局层面的参考答案和临床约束进行核对，提供相对客观的反馈信号。在实践中，检查器可以同时包括两类机制：一类是基于规则的验证，用于硬性约束和确定性标准；另一类是基于大型语言模型的评估，用于内部一致性、完整性和指南遵循等结构化检查。重要的是，当某项主张无法从可用回顾性信息中验证时，奖励引擎可以不予正向奖励，或将其标记为“不可验证”，以减少虚假自我强化。

这种反馈循环完全包含在计算环境内部。模型可以探索不同推理路径，并根据历史病例中专家验证的结局获得可验证奖励，而不需要在训练期间进行实时患者检查、改变检测项目或实施临床干预。这样的设计可以降低在真实临床环境中部署强化学习所带来的伦理和后勤问题。

此外，基于监督训练的非强化学习方法也可能在优化医学推理人工智能能力方面发挥关键作用。这些技术利用高级模型生成的详细推理轨迹，为较小且计算效率更高的模型提供训练指导。通过蒸馏结构化临床理由，监督式后训练可以增强模型生成连贯鉴别诊断、解释病理生理联系并呈现可审计推理步骤的能力。由于这种方法相对简单、可扩展且成本较低，因此对于资源受限的临床环境尤其具有现实意义。

面向稳健临床推理的提示工程与优化

提示工程旨在通过围绕患者和临床医生目标设计输入，引导模型产生符合具体目的的临床推理理由。它通常依赖精确指令和示例，鼓励模型表达中间步骤，而不是直接输出最终答案。早期研究显示，简单结构化提示和少样本示例可以在医学推理任务中带来明显提升，因为它们能够诱导模型生成更系统、更接近临床医生思维方式的解释。当提示与临床意图保持一致时，模型回答也会更符合目的，并更容易被临床医生审查。

然而，完全不训练、仅依赖提示的方法在安全关键场景中鲁棒性有限。模型表现可能受到基础模型、解码配置以及提示中微小扰动的影响，从而导致推理轨迹不稳定、结果方差增加。为提升稳定性，近期研究将提示视为可优化组件，并发展自动化提示优化方法。例如，通过文本反馈反向传播来系统优化提示组件，使系统能够搜索对目标临床任务既有效又稳定的提示。经验结果显示，提示优化可以提升医学基准表现并降低结果方差，数据驱动的提示优化也可作为高风险临床问答任务中替代模型微调的一种低成本方案。此外，结构化工具还可以将提示流水线编译并针对明确指标进行评估，从而支持可复现的提示选择和系统性鲁棒性测试。

用于交互式推理的智能体建模

智能体建模通过使模型能够在复杂、交互式临床工作流中运行，扩展医学推理人工智能的能力。这类系统可以通过与临床医生以及医学数据库、健康记录系统、计算工具和临床决策支持模块等外部资源协调互动，增强决策过程。通过协调工具使用、角色分工和安全边界，智能体式设计可以将临床推理转化为可追责行动，包括检查指南一致性、纳入临床医生反馈，并在新证据出现时更新计划。系统内部通常采用结构化任务分解和反思循环，即规划、行动、验证和修订，从而提高透明度，并使临床医生能够监督中间步骤。多智能体形式还可通过将子任务分配给不同专业角色，更接近跨学科团队协作的工作方式。

除不训练的编排方式外，近期进展提示，智能体行为也可以从多步骤互动轨迹中学习。这些行为包括信息搜索、证据验证、在不确定时选择保留判断或升级处理，以及结构化报告。一个可行路径是先使用人工整理和合成的临床轨迹进行冷启动，再通过端到端强化学习优化轨迹层面的目标，例如正确性、证据支持程度和交互效率。在这一设定中，“环境”可以是基于回顾性医学病例和隔离医学知识资源构建的计算模拟器，奖励则由规则或大型语言模型检查器根据病例层面真实结果、指南与格式约束以及一致性检查来计算。这种方式避免了前瞻性患者互动，并与临床可行性要求保持一致。

不过，无论是不训练的智能体编排，还是经过学习的智能体系统，都仍然面临挑战，包括外部工具和资源不可靠、固定流程可能放大偏见，以及在非典型场景中表现脆弱。未来工作可能需要将反馈驱动优化与结构化知识表示相结合，例如临床知识图谱，以进一步提高鲁棒性和可控性。

挑战与局限

医学推理人工智能的发展和部署需要解决一系列重要障碍，这些障碍不同于传统医学人工智能所面临的问题。传统医学人工智能通常执行定义明确的任务，而医学推理人工智能预期在多个临床领域展现更广泛的推理能力。这种差异带来了不同挑战，要求研究人员超越传统人工智能验证方式，并协调计算生物学、临床研究、监管科学和卫生政策等多个领域，才能推动其从研究走向常规临床照护。

医学推理人工智能的临床整合路径可被理解为三个阶段。第一阶段是回顾性评价，重点是静态基准测试和工具授权。第二阶段是现实临床环境中的前瞻性评价，强调动态互动以及多维性能指标。第三阶段是无缝融入临床工作流，通过持续信息交换和与临床医生及患者之间的闭环协作，实现真正的临床集成。

图3｜医学推理人工智能的评价与临床整合路径。

临床验证与证据要求

与可通过诊断准确性研究进行验证的传统医学人工智能不同，医学推理人工智能可能需要跨多样临床场景评估其推理过程。传统系统例如自动糖尿病视网膜病变筛查，可以通过将人工智能分类结果与眼科专家判断进行比较来验证。相比之下，医学推理人工智能需要验证其推理链、决策过程，以及处理训练分布之外临床表现的能力。

其实施可能需要多阶段临床证据生成。最初可通过标准化医学病例进行受控研究，以证明推理准确性；随后在急诊科等场景开展试点研究，比较医学推理人工智能辅助诊断与传统临床决策的准确性。传统人工智能可能只需对单个症状进行分类，而医学推理人工智能必须展示其能够在症状时间序列、风险因素整合和迭代假设优化中进行合理推理。

监管路径也可能需要重新设计，因为医学推理人工智能会通过临床经验持续调整推理，而不是像静态传统人工智能模型那样保持固定行为。现有监管路径往往假定算法行为是固定的，但医学推理人工智能可能在遇到罕见遗传综合征病例后，改善未来类似病例的推理方式。这种适应能力要求建立持续安全监测、性能验证和更新审批流程，而当前监管框架尚未完全具备相应能力。上市后监测也不应只跟踪诊断准确性，还应评估推理是否恰当，包括系统虽然得出正确结论但逻辑有缺陷，或逻辑合理但结论错误的情况。

推理验证与临床监督

传统医学人工智能通常产生二元输出或概率分数，临床医生可以较快验证。例如，“以87%置信度检测到肺炎”可通过查看胸部X线片确认。医学推理人工智能则会生成复杂的多步骤推理链，需要完全不同的验证方式。以发热、意识改变和颈强直患者为例，系统可能生成包括识别典型脑膜炎三联征、根据临床表现区分细菌性和病毒性病因、评估近期旅行或免疫抑制等风险因素、建议立即腰椎穿刺和经验性抗生素治疗，以及根据当地耐药情况选择具体抗生素等一系列推理步骤。

医学推理人工智能在临床实践中的实施可能面临显著效率问题，尤其与人工验证推理轨迹有关。传统人工智能允许临床医生在数秒或数分钟内确认简单输出，例如标记可疑肺结节供放射科医生复核。医学推理人工智能则要求临床医生在临床决策前评估复杂推理链，因为正确结论仍可能来自错误逻辑。这一验证过程天然耗时，可能造成工作流瓶颈，抵消预期效率收益。

例如，急诊科医生或放射科医生在复杂病例中可能需要花费数分钟手动检查医学推理人工智能的推理过程，如诊断间质性肺病时，系统可能跨患者病史、实验室数据、影像发现和鉴别诊断形成多步骤推理。与传统人工智能警报的快速确认相比，这种过程负担更重。已有研究表明，与简单诊断输出相比，临床医生需要更多时间处理和验证人工智能生成的解释。在急诊科等高容量环境中，推理链验证所需时间可能降低患者整体流转效率。此外，评估多步骤推理带来的认知负荷可能导致验证疲劳，使临床医生开始在没有充分审查的情况下接受人工智能推理，从而危及患者安全。

当人类和人工智能认知出现分歧时，协作挑战会进一步增加。若医学推理人工智能生成的推理链与医生判断冲突，解决差异需要额外调查、会诊或检测。传统人工智能系统中，医生可以根据临床经验快速覆盖人工智能建议；而医学推理人工智能的分歧可能要求逐步检查每个推理环节，以识别差异来源，从而进一步降低临床效率。

从语言模型中提取推理轨迹

语言模型通常以黑箱方式运行，因此很难为某个答案提取唯一且可验证的推理轨迹。实践中，模型可能通过不同但看似合理的路径得到同一个正确答案，这使单一思维链解释的验证变得复杂。此外，最终答案正确并不保证模型中间推理步骤正确或忠实。研究人员指出，大型语言模型生成的逐步解释有时可能并不反映真实决策过程，而只是看起来合理的事后合理化。因此，即使对先进模型而言，验证整个推理过程仍然非常困难，也是该领域正在积极探索的问题。

为应对这一问题，当前最佳实践通常将大型语言模型生成的推理轨迹作为内部逻辑的代理，然后通过人工或自动化检查评估其逻辑一致性和准确性。这种方法与近期研究趋势一致，即通过结构化大型语言模型推理，例如探索多个推理分支或加入形式化验证步骤，来提高透明性和可信度。通过让人类专家检查和验证模型输出的思维链，研究人员希望确保所呈现推理是合理的，并与已知医学原则和实践一致，从而增强人们对结论的信心。

隐私、监管合规与数据治理

医学推理人工智能需要与传统医学人工智能不同的隐私保护机制，因为它可能需要实时访问并整合更大量的患者数据。传统人工智能系统通常只处理孤立数据类型：皮肤科人工智能分析皮肤图像，放射科人工智能审查特定影像研究。医学推理人工智能则可能同时访问电子健康记录、实验室结果、影像检查、遗传数据以及实时生理监测数据，由此产生更复杂的隐私问题。

例如，传统人工智能乳腺影像系统只处理乳腺影像数据，而用于评估乳腺癌风险的医学推理人工智能系统可能整合临床笔记中的家族史、基因检测结果、既往影像检查、激素治疗史以及患者问卷中的生活方式因素。这种全面数据整合意味着，一旦发生隐私泄露，暴露的信息可能远比传统人工智能系统更加敏感。当医学推理人工智能需要跨多个医疗机构和数据源关联信息时，患者数据保护将变得更加复杂。

知识产权挑战也存在显著差异。传统人工智能系统通常基于特定数据集进行训练，例如病理图像或心电图记录，数据来源相对清楚。医学推理人工智能可能需要访问海量医学文献、临床指南以及潜在专有治疗方案，以支持循证推理。如果系统根据最新肿瘤学研究推荐特定化疗方案，就会引发是否涉及原始研究出版物版权的问题。因此，实施医学推理人工智能需要建立新的负责任医学知识整合框架，在尊重知识产权的同时允许全面临床推理。

数据与偏见问题

传统医学人工智能可以基于相对直接的数据集训练，例如数千张带标签的胸部X线片或病理切片。医学推理人工智能则需要不同类型训练数据，这些数据必须捕捉复杂推理路径，而不仅是简单诊断标签。当前合成数据生成尝试创建逼真的诊断推理链，但往往仍缺乏真实临床实践中的复杂性。

例如，为传统肺炎检测人工智能生成合成数据，只需要创建带有适当病理表现的胸部X线图像。为医学推理人工智能生成合成数据，则必须构建完整临床场景及合理推理路径：一名72岁糖尿病患者出现咳嗽和发热，初始胸片正常但炎症指标升高，12小时内出现呼吸窘迫，最终因重症肺炎并初始影像阴性而需插管。合成推理链必须体现时间演变、诊断不确定性和迭代决策过程，这些正是真实临床实践的核心特征。

偏见传播在医学推理人工智能中也具有不同表现。传统人工智能可能表现为在某些人口学群体中性能较差，例如脉搏血氧算法在较深肤色患者中准确性下降。医学推理人工智能中的偏见可能出现在推理过程中，例如即使单个诊断组件工作正常，系统也可能在女性非典型胸痛患者中系统性低估心血管风险。检测和纠正这种推理偏见，需要与传统人工智能性能差异纠正完全不同的方法。

基础设施与医疗人员整合

医学推理人工智能实施所需计算资源不同于传统医学人工智能。皮肤科人工智能应用可以在智能手机上运行，而医学推理人工智能系统可能需要能够跨多个数据源进行实时推理的高性能计算基础设施。例如，急诊科医学推理人工智能系统若要同时分析患者表现、访问药物相互作用数据库、查询临床指南并生成鉴别诊断，所需资源可能远超传统诊断人工智能工具。

医疗人员培训需求也不同。学习使用放射科人工智能，主要是理解人工智能标记发现并掌握其在特定影像模态中的局限。医学推理人工智能则要求临床医生发展全新能力，包括评估人工智能推理链、判断何时信任或覆盖人工智能建议，以及当人工智能推理与临床直觉冲突时仍维持独立临床判断。例如，急诊医生需要学会评估医学推理人工智能对未分化休克的推理过程，其中系统可能同时考虑脓毒症、心源性休克、过敏反应和肾上腺危象，并权衡每种可能性的临床证据。

经济因素也更加复杂。传统人工智能系统通常有相对清晰的投资回报计算，例如缩短放射科医生阅片时间或减少漏诊。医学推理人工智能的经济收益则更难量化，可能包括提高诊断准确性、减少医疗错误、增强临床教育，以及通过更高效的临床推理缩短住院时间。然而，其实施成本不仅包括技术基础设施，还包括大量人员培训、工作流重构和持续系统维护，这些都是传统人工智能部署中较少涉及的内容。

伦理治理与责任框架

医学推理人工智能可能需要不同于传统医学人工智能的责任框架。当传统人工智能系统在胸部CT中漏检肺结节时，责任归属相对清楚：放射科医生仍对最终解读负责，人工智能只是诊断辅助工具。相比之下，当医学推理人工智能生成复杂推理链并导致不恰当治疗决策时，责任归属会变得更加复杂。

例如，如果医学推理人工智能在治疗脓毒症患者时，根据当地耐药模式、患者过敏史和肾功能推荐特定抗生素方案，但患者出现抗生素相关并发症，那么判断责任需要评估每个推理步骤是否恰当。医疗机构可能需要制定全面协议，明确临床医生对人工智能推理验证的责任，尤其是在人工智能建议涉及多个相互作用因素，而单一临床医生未必能完全独立评估所有因素的情况下。

患者知情同意和透明性要求也与传统人工智能显著不同。患者相对容易理解“人工智能系统帮助分析了你的X线片是否有肺炎”。但解释医学推理人工智能的参与则更复杂，因为它可能同时在多个临床领域影响诊断和治疗决策。医疗机构需要制定患者沟通策略，既充分告知患者人工智能参与情况，又避免过度技术化信息造成负担，确保患者能够对是否参与人工智能支持的临床照护做出知情决定。

整理 | DrugOne团队

参考资料

Zhou, HY., Rodman, A., Liu, P. et al. Large reasoning models as thinking machines for medicine. Nat. Biomed. Eng (2026).

https://doi.org/10.1038/s41551-026-01701-y

内容为【DrugOne】公众号原创｜转载请注明来源

内容中包含的图片若涉及版权问题，请及时与我们联系删除

Nat. Biomed. Eng. | 大型推理模型：医学中的“思考机器”

评论列表

评论