- 简介我们研究如何通过推理来调用语言模型参数中所存储的世界知识。例如,回忆“堪培拉是澳大利亚首都”这一事实时,若能先思考澳大利亚的主要城市,并结合“专门规划建设的首都”这一概念进行推演,则有助于准确提取该知识。尽管当前的推理型语言模型通常通过强化学习进行训练,使其能在数学等任务中生成合理的推理过程(即推理链),但它们在调用自身所具备的世界知识时,往往缺乏有效的推理能力。我们首先发现:模型默认生成的推理过程并不能充分挖掘其自身所掌握的世界知识;而仅添加一个简单的提示语“请逐步思考”,即可在世界知识回忆任务上带来统计显著的性能提升,但在数学任务上却未见明显改善。受此启发,我们提出一种新方法:以世界知识类问答任务作为可验证的奖励信号,对模型进行强化学习训练,使其学会围绕参数化知识展开有效推理。在TriviaQA数据集上完成强化学习后,模型性能提升了9.9%;与此同时,在Natural Questions、HotpotQA、SimpleQA和StrategyQA四个数据集上的表现也分别提升了4.2%、2.1%、0.6%和3.0%。由此可见,现有推理型模型在参数化知识访问方面尚未得到充分优化,但只需针对性地加以训练,便能显著提升其基于自身知识进行推理的能力。
-
- 图表
- 解决问题语言模型虽具备大量世界知识,但其参数化知识的访问能力未被充分优化;默认生成模式下,模型不自然地进行有效推理以激活和检索世界知识(如首都、事实性知识),这与数学等结构化推理任务不同——该问题揭示了‘推理能力’与‘知识访问推理能力’的解耦,是一个被忽视但重要的新问题。
- 关键思路提出一种基于可验证奖励的强化学习范式,专门训练模型在世界知识问答任务(如TriviaQA)上生成有助于知识检索的推理链;核心创新在于:不依赖人工标注推理步骤,而是利用问答答案的客观正确性作为稀疏奖励信号,引导模型自发发展出对参数化知识的‘认知性推理’(如联想、排除、概念提示),从而提升知识回忆的可靠性。
- 其它亮点实验显示‘think step-by-step’提示即带来显著知识召回提升(p<0.01),证实知识访问存在可激发的推理潜力;在TriviaQA上RL微调后,泛化至Natural Questions(+4.2%)、HotpotQA(+2.1%)、SimpleQA(+0.6%)、StrategyQA(+3.0%);方法轻量、无需推理标注或外部工具;代码与训练细节未在摘要中提及,暂未声明开源;值得深入的方向包括:推理链可解释性分析、知识推理与幻觉抑制的协同优化、跨领域知识推理迁移。
- Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (ICLR 2023); Self-Consistency Improves Chain of Thought Reasoning in Language Models (ICLR 2023); ReAct: Synergizing Reasoning and Acting in Language Models (ICLR 2023); PAL: Program-Aided Language Models (ICLR 2023); Faithful Reasoning Using Large Language Models (NeurIPS 2023)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流