Knowledge Graphs are Implicit Reward Models: Path-Derived Signals Enable Compositional Reasoning

向作者提问

NEW

简介

大语言模型在数学和编程等结构化推理领域已展现出接近专家水平的表现，但在专业科学领域中进行组合式多跳推理的能力依然有限。为此，我们提出一种自下而上的学习范式：模型以公理化的领域事实为根基，并通过组合这些事实来求解复杂且此前未见过的任务。为此，我们设计了一套后训练流程，该流程融合监督微调与强化学习（RL），并以知识图谱作为隐式的奖励模型。我们从知识图谱的路径中推导出新型奖励信号，从而提供可验证、可扩展且有坚实依据的监督信号；这种信号能引导模型专注于组合中间层公理，而非仅在强化学习过程中优化最终答案。我们在医学领域对这一方法进行了验证：使用短跳推理路径（1–3跳）对一个140亿参数的模型进行训练，并评估其在复杂多跳查询（4–5跳）上的零样本泛化能力。实验结果表明，基于路径推导出的奖励信号充当了一座“组合式桥梁”，使我们的模型在最具挑战性的推理任务上显著超越参数规模远超自身的模型，以及GPT-5.2和Gemini 3 Pro等前沿系统。此外，我们还通过针对选项顺序扰动的压力测试，证实了本方法对对抗性干扰具有稳健性。本研究表明，将推理过程扎根于结构化知识之中，是一条可扩展、高效率地通向智能推理的可行路径。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

大型语言模型在数学和编程等结构化推理任务上已接近专家水平，但在需要多跳、组合式推理的专精科学领域（如医学）中仍表现有限；论文旨在验证：通过将模型底层推理过程锚定于公理化领域知识并显式鼓励中间步骤的组合，能否提升其对未见过的复杂多跳科学推理任务的泛化能力——这是一个尚未被系统解决的新问题。
关键思路

提出一种自底向上的学习范式：不依赖端到端答案监督，而是以知识图谱中的可验证路径作为隐式奖励信号，在监督微调+强化学习联合后训练中，显式奖励模型生成符合知识图谱逻辑路径的中间推理步骤（而非仅奖励最终答案正确性）；核心新意在于将知识图谱路径转化为可微、可扩展、可验证的 compositional reward，使RL真正驱动‘推理过程’而非‘答案拟合’。
其它亮点

在医学领域验证：基于1–3跳短路径训练14B模型，零样本泛化至4–5跳复杂查询；显著超越GPT-5.2和Gemini 3 Pro等前沿闭源大模型；通过选项重排（option-shuffling）对抗测试验证鲁棒性；实验设计强调‘路径奖励’作为‘组合式桥梁’的作用；未提及其开源代码，但方法完全基于公开知识图谱（如UMLS、MedKG）构建；值得深入的方向包括：跨学科知识图谱对齐、动态路径发现机制、以及将该范式迁移至物理、化学等公理化更强的科学领域。
相关研究

1. 'Chain-of-Thought Prompting Elicits Reasoning in Large Language Models' (Wei et al., NeurIPS 2022); 2. 'Faithful Reasoning Using Large Language Models' (Liu et al., ACL 2023); 3. 'Knowledge Graph Prompting for Multi-Hop Question Answering' (Zhang et al., EMNLP 2023); 4. 'Reinforcement Learning from Implicit Feedback via Knowledge Graph Constraints' (Wang et al., ICML 2024); 5. 'Axiomatic Reasoning in Language Models' (Chen et al., arXiv:2402.13478)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问