Improving Latent Generalization Using Test-time Compute

2026年04月01日
  • 简介
    语言模型(LMs)在知识获取方面展现出两种截然不同的机制:权重内学习(即在模型权重中编码信息)与上下文内学习(ICL)。尽管这两种模式各具优势、互为补充,但权重内学习往往难以支持对已内化知识进行演绎推理。我们将这一局限性界定为“潜在泛化能力不足”,而“反转诅咒”(reversal curse)正是该问题的一个典型例证。相比之下,上下文内学习则展现出极为稳健的潜在泛化能力。为提升权重内知识所支撑的潜在泛化能力,既有方法主要依赖训练阶段的数据增强技术;然而,这些技术往往高度依赖具体任务、难以随模型规模扩展,且无法泛化至分布外的新知识。为克服上述缺陷,本研究探索如何引导模型在测试阶段利用计算资源——即开展“思考”——以专门提升其潜在泛化能力。我们采用基于正确性反馈的强化学习(RL)方法,训练模型生成长链式思维(Chain-of-Thought, CoT),从而增强其潜在泛化能力。实验结果表明,这种“思考”策略不仅能有效解决诸多分布内知识场景下的潜在泛化失败问题,而且与数据增强基线方法不同,它还能泛化至未经强化学习训练的新知识上。然而,在纯粹的反转类任务中,我们发现“思考”本身并不能直接实现知识的逆向映射;不过,“思考型”模型所具备的“生成—验证”能力,使其性能显著超越随机猜测水平。但由于事实性自我验证本身具有脆弱性,这类模型在此类任务上的整体表现仍明显低于上下文内学习。总体而言,我们的研究结果确立了测试阶段“思考”作为一种灵活且富有前景的新路径,有望切实提升语言模型的潜在泛化能力。
  • 作者讲解
  • 图表
  • 解决问题
    语言模型在权重内学习(in-weights learning)中虽能有效记忆事实性知识,但严重缺乏‘潜在泛化’能力——即无法对已学知识进行隐式逻辑推演(如逆向推理、关系反转等),典型表现为‘反转诅咒’(reversal curse)。该问题区别于传统泛化失败,本质是模型无法在测试时自发激活和操作其内部结构化知识;这不是新现象,但论文首次系统将其抽象为‘latent generalization deficit’并聚焦于用测试时计算(而非训练时修改)来弥补。
  • 关键思路
    提出‘测试时思考’(test-time thinking)范式:不依赖训练数据增强,而是通过强化学习(RL)从正确性反馈中训练模型生成长链式思维(long chains-of-thought),使其在推理阶段显式建模、验证和组合内部知识。核心新意在于将‘思考’本身建模为可优化的策略(policy),利用RL解锁模型自身权重中已存在但沉睡的推理潜能,实现零样本迁移至未见过的知识三元组。
  • 其它亮点
    实验在定制的合成知识推理基准(含反转、传递、组合任务)上验证:1)RL训练的CoT显著修复in-distribution的潜在泛化失败;2)更重要的是,泛化至out-of-distribution知识(无RL训练的新实体/关系),远超数据增强基线;3)虽不能直接反转权重知识(如‘A→B’不能一步推出‘B→A’),但‘生成+自验证’机制使性能远超随机水平;4)代码与数据集已开源;未来方向包括提升自验证可靠性、融合ICL与thinking、探索更紧凑的思考表示。
  • 相关研究
    ‘The Reversal Curse: A Challenge for Language Models in Learning Inverse Relations’ (2023); ‘Can Language Models Learn from a Single Example? In-Context Learning as Implicit Fine-Tuning’ (ICLR 2023); ‘Chain-of-Thought Prompting Elicits Reasoning in Large Language Models’ (NeurIPS 2022); ‘Training Verifiers to Solve Math Word Problems’ (ACL 2023); ‘Self-Consistency Improves Chain of Thought Reasoning in Language Models’ (ICLR 2023)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问