DRUGONE
研究人员提出,大语言模型不仅可以用于化学知识表达,还可以作为“化学推理引擎”,在与传统搜索算法结合后,能够模拟人类化学家的思维方式,辅助解决复杂的化学问题。
与直接生成分子结构不同,本研究将大语言模型定位为评估器,通过对化学策略的理解,引导搜索算法朝着更具化学意义的方向探索。研究人员在两个核心问题上验证了这一思想:策略感知的逆合成规划以及反应机理解析。
在逆合成任务中,该框架允许研究人员通过自然语言描述合成策略,从大量候选路径中筛选出满足条件的路线,其结果与独立化学专家的判断一致性达到 71%。在机理解析任务中,大语言模型通过评估电子推动的基本反应步骤,引导搜索找到合理的反应路径。这一研究表明,大语言模型的“策略理解能力”可以与传统计算化学工具的精确性相结合,从而形成更直观、更强大的化学推理体系。

化学推理自动化一直是化学领域的重要目标,它对于加速药物发现、合成设计以及反应机理理解具有重要意义。然而,现有计算方法通常针对单一任务开发,例如性质预测或反应路径搜索,缺乏跨层级、多步骤的推理能力。
在实际合成设计中,化学家需要同时考虑多个复杂因素,例如环结构构建的顺序、官能团引入的时机以及保护基策略等。这种多层级、多目标的决策过程,本质上依赖于经验与策略思维。
近年来,大语言模型在科学领域展现出强大的知识理解与推理能力,其表现出类似人类直觉的化学推理模式,尤其在分析反应策略与合成路径方面具有潜力。然而,这些模型在生成化学结构(如 SMILES)时仍存在局限,这限制了其直接应用。
基于此,研究人员提出一种新的范式:不再让模型生成结构,而是让其作为“策略评估者”,与传统搜索方法协同工作,从而结合推理能力与计算精度。
方法
研究人员构建了一个名为 Synthegy 的框架,其核心思想是将大语言模型嵌入到传统化学搜索流程中。
在该框架中,传统算法负责生成候选解,例如可能的合成路径或反应步骤,而大语言模型则对这些候选解进行分析与评分。输入包括目标分子以及用自然语言描述的策略约束,例如“优先在早期构建某个环结构”。模型根据这些约束评估每条路径,并给出评分及解释,从而实现路径排序与筛选。
在机理解析任务中,研究人员定义了一组通用的基本反应步骤,通过搜索这些步骤的组合来构建反应路径。大语言模型对每一步进行合理性评估,从而引导搜索逐步逼近正确机理。

图1:LLM作为化学推理引擎的整体框架与两类任务(合成规划与机理解析)。
结果
策略感知合成规划能力
研究结果表明,大语言模型已经具备对复杂合成路径进行深入分析的能力。它不仅能够理解单个反应步骤,还能够在全局层面评估整个合成策略。
在基准测试中,最先进模型能够系统分析每一步反应,并结合整体路径判断其是否符合策略要求。性能随模型规模显著提升,小模型几乎接近随机,而大模型表现出明显的推理能力。
此外,模型能力在短时间内快速提升。较新一代模型在复杂任务上的表现远超旧模型,显示出推理能力的持续进化趋势。
与人类专家的一致性
在由 36 名化学专家参与的双盲评估中,模型的判断与专家一致的比例达到约 71%。
更重要的是,在绝大多数情况下,至少一半以上的专家会与模型结论一致。这说明该系统的判断已经接近人类专家的水平。
研究还发现,资深研究人员与模型的一致性更高,说明模型在某种程度上更接近专家级思维方式。

图2:模型性能随时间提升及与专家一致性分析。
合成路线可行性评估
研究进一步测试了模型在“合成可行性评估”这一更复杂任务中的能力。
结果表明,模型能够识别高质量合成路径,例如避免不必要的保护基操作、选择更高收率的反应步骤,并有效识别低质量路径中的关键问题,如副反应风险或步骤设计不合理。
在与真实实验路线对比中,模型对已成功实施的路线给予较高评分,说明其具备一定预测能力。

图3:不同工具生成路线的可行性评分及案例分析。
反应机理解析能力
在机理解析任务中,模型通过评估“电子推动步骤”来引导搜索,从而构建完整反应路径。
结果显示,在简单反应中,模型几乎可以完美识别正确机理;在复杂反应中,性能有所下降,但仍能区分合理与不合理步骤,表现出良好的泛化能力。
此外,引入额外文本指导(例如专家描述的机理思路)可以显著提升模型表现,说明该框架具有良好的可扩展性。

图4:机理解析任务设计及模型性能评估。
讨论
本研究提出了一种新的计算化学范式:将大语言模型作为“策略推理层”,与传统算法协同工作,而非替代它们。
这一范式的核心优势在于:
一方面,大语言模型能够理解复杂的化学策略与语义信息;另一方面,传统方法提供了系统化搜索与精确计算能力。二者结合,使得系统既具备直觉推理,又保持计算严谨性。
在合成规划中,该方法允许研究人员通过自然语言表达复杂策略,从而大幅降低使用门槛,并提高路径筛选效率。在机理解析中,该方法展示了通过推理引导搜索的潜力,为自动化机理研究提供了新思路。
然而,该方法仍存在局限。例如模型可能误解输入格式、倾向于给出过于简单的解释,或者对长路径的跟踪能力不足。此外,其性能依赖于候选解的质量,因此仍需要高质量的底层搜索工具支持。
总体来看,该研究表明,大语言模型正在从“预测工具”转变为“推理工具”,并有望成为未来计算化学系统中的核心组件。
整理 | DrugOne团队
参考资料
Bran, Andres M., Theo A. Neukomm, Daniel Armstrong, Zlatko Jončev, and Philippe Schwaller. "Chemical reasoning in LLMs unlocks strategy-aware synthesis planning and reaction mechanism elucidation." Matter (2026).

内容为【DrugOne】公众号原创|转载请注明来源
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢