Improving Parametric Knowledge Access in Reasoning Language Models

向作者提问

NEW

简介

我们研究如何通过推理来调用语言模型参数中所存储的世界知识。例如，回忆“堪培拉是澳大利亚首都”这一事实时，若能先思考澳大利亚的主要城市，并结合“专门规划建设的首都”这一概念进行推演，则有助于准确提取该知识。尽管当前的推理型语言模型通常通过强化学习进行训练，使其能在数学等任务中生成合理的推理过程（即推理链），但它们在调用自身所具备的世界知识时，往往缺乏有效的推理能力。我们首先发现：模型默认生成的推理过程并不能充分挖掘其自身所掌握的世界知识；而仅添加一个简单的提示语“请逐步思考”，即可在世界知识回忆任务上带来统计显著的性能提升，但在数学任务上却未见明显改善。受此启发，我们提出一种新方法：以世界知识类问答任务作为可验证的奖励信号，对模型进行强化学习训练，使其学会围绕参数化知识展开有效推理。在TriviaQA数据集上完成强化学习后，模型性能提升了9.9%；与此同时，在Natural Questions、HotpotQA、SimpleQA和StrategyQA四个数据集上的表现也分别提升了4.2%、2.1%、0.6%和3.0%。由此可见，现有推理型模型在参数化知识访问方面尚未得到充分优化，但只需针对性地加以训练，便能显著提升其基于自身知识进行推理的能力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

语言模型虽具备大量世界知识，但其参数化知识的访问能力未被充分优化；默认生成模式下，模型不自然地进行有效推理以激活和检索世界知识（如首都、事实性知识），这与数学等结构化推理任务不同——该问题揭示了‘推理能力’与‘知识访问推理能力’的解耦，是一个被忽视但重要的新问题。
关键思路

提出一种基于可验证奖励的强化学习范式，专门训练模型在世界知识问答任务（如TriviaQA）上生成有助于知识检索的推理链；核心创新在于：不依赖人工标注推理步骤，而是利用问答答案的客观正确性作为稀疏奖励信号，引导模型自发发展出对参数化知识的‘认知性推理’（如联想、排除、概念提示），从而提升知识回忆的可靠性。
其它亮点

实验显示‘think step-by-step’提示即带来显著知识召回提升（p<0.01），证实知识访问存在可激发的推理潜力；在TriviaQA上RL微调后，泛化至Natural Questions（+4.2%）、HotpotQA（+2.1%）、SimpleQA（+0.6%）、StrategyQA（+3.0%）；方法轻量、无需推理标注或外部工具；代码与训练细节未在摘要中提及，暂未声明开源；值得深入的方向包括：推理链可解释性分析、知识推理与幻觉抑制的协同优化、跨领域知识推理迁移。
相关研究

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (ICLR 2023); Self-Consistency Improves Chain of Thought Reasoning in Language Models (ICLR 2023); ReAct: Synergizing Reasoning and Acting in Language Models (ICLR 2023); PAL: Program-Aided Language Models (ICLR 2023); Faithful Reasoning Using Large Language Models (NeurIPS 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问