Improving Latent Generalization Using Test-time Compute

向作者提问

NEW

简介

语言模型（LMs）在知识获取方面展现出两种截然不同的机制：权重内学习（即在模型权重中编码信息）与上下文内学习（ICL）。尽管这两种模式各具优势、互为补充，但权重内学习往往难以支持对已内化知识进行演绎推理。我们将这一局限性界定为“潜在泛化能力不足”，而“反转诅咒”（reversal curse）正是该问题的一个典型例证。相比之下，上下文内学习则展现出极为稳健的潜在泛化能力。为提升权重内知识所支撑的潜在泛化能力，既有方法主要依赖训练阶段的数据增强技术；然而，这些技术往往高度依赖具体任务、难以随模型规模扩展，且无法泛化至分布外的新知识。为克服上述缺陷，本研究探索如何引导模型在测试阶段利用计算资源——即开展“思考”——以专门提升其潜在泛化能力。我们采用基于正确性反馈的强化学习（RL）方法，训练模型生成长链式思维（Chain-of-Thought, CoT），从而增强其潜在泛化能力。实验结果表明，这种“思考”策略不仅能有效解决诸多分布内知识场景下的潜在泛化失败问题，而且与数据增强基线方法不同，它还能泛化至未经强化学习训练的新知识上。然而，在纯粹的反转类任务中，我们发现“思考”本身并不能直接实现知识的逆向映射；不过，“思考型”模型所具备的“生成—验证”能力，使其性能显著超越随机猜测水平。但由于事实性自我验证本身具有脆弱性，这类模型在此类任务上的整体表现仍明显低于上下文内学习。总体而言，我们的研究结果确立了测试阶段“思考”作为一种灵活且富有前景的新路径，有望切实提升语言模型的潜在泛化能力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

语言模型在权重内学习（in-weights learning）中虽能有效记忆事实性知识，但严重缺乏‘潜在泛化’能力——即无法对已学知识进行隐式逻辑推演（如逆向推理、关系反转等），典型表现为‘反转诅咒’（reversal curse）。该问题区别于传统泛化失败，本质是模型无法在测试时自发激活和操作其内部结构化知识；这不是新现象，但论文首次系统将其抽象为‘latent generalization deficit’并聚焦于用测试时计算（而非训练时修改）来弥补。
关键思路

提出‘测试时思考’（test-time thinking）范式：不依赖训练数据增强，而是通过强化学习（RL）从正确性反馈中训练模型生成长链式思维（long chains-of-thought），使其在推理阶段显式建模、验证和组合内部知识。核心新意在于将‘思考’本身建模为可优化的策略（policy），利用RL解锁模型自身权重中已存在但沉睡的推理潜能，实现零样本迁移至未见过的知识三元组。
其它亮点

实验在定制的合成知识推理基准（含反转、传递、组合任务）上验证：1）RL训练的CoT显著修复in-distribution的潜在泛化失败；2）更重要的是，泛化至out-of-distribution知识（无RL训练的新实体/关系），远超数据增强基线；3）虽不能直接反转权重知识（如‘A→B’不能一步推出‘B→A’），但‘生成+自验证’机制使性能远超随机水平；4）代码与数据集已开源；未来方向包括提升自验证可靠性、融合ICL与thinking、探索更紧凑的思考表示。
相关研究

‘The Reversal Curse: A Challenge for Language Models in Learning Inverse Relations’ (2023); ‘Can Language Models Learn from a Single Example? In-Context Learning as Implicit Fine-Tuning’ (ICLR 2023); ‘Chain-of-Thought Prompting Elicits Reasoning in Large Language Models’ (NeurIPS 2022); ‘Training Verifiers to Solve Math Word Problems’ (ACL 2023); ‘Self-Consistency Improves Chain of Thought Reasoning in Language Models’ (ICLR 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问