- 简介大型语言模型(LLMs)能否在不更新任何模型权重、仅依靠上下文内学习(In-Context Learning, ICL)的情况下,学会进行推理?ICL 具有惊人的样本效率,往往仅需寥寥数个示例即可完成学习;然而,复杂的推理任务通常需要大量训练样本才能有效掌握。但若简单地通过堆叠更多示例来扩大 ICL 规模,该方法在较大规模下便会失效:注意力计算开销呈二次方增长,模型性能在上下文变长后趋于饱和甚至下降,且这种学习方式本质上仍是一种浅层学习。受上述局限性制约,实际应用中,从业者主要依赖“权重内学习”(In-Weight Learning, IWL)来赋予模型推理能力。本文表明,借助前缀微调(Prefix Tuning)技术,LLM 可在不超出上下文窗口容量、亦不更新任何模型参数的前提下,成功习得推理能力。我们由此提出 **ReasonCACHE**——一种基于该机制的具体实现方案,它将示范样例提炼并固化为一个固定大小的键值缓存(key-value cache)。实验结果表明,在包括 GPQA-Diamond 在内的多项高难度推理基准测试中,ReasonCACHE 均显著优于标准 ICL 方法,并达到或超越各类 IWL 方法的性能水平。更重要的是,它在三个关键维度上均展现出更高效率:所需数据量更少、推理开销更低、可训练参数量更小。此外,我们从理论上严格证明:ReasonCACHE 的表达能力可严格强于低秩权重更新(low-rank weight update),因为后者将模型表达力受限于输入的秩(input rank),而 ReasonCACHE 则通过直接向注意力机制注入键值对的方式,绕开了这一根本性约束。综上所述,我们的研究揭示了 ReasonCACHE 是一条介于上下文内学习与权重内学习之间的中间路径,提供了一种可扩展的算法框架——无需修改模型参数,即可突破上下文窗口限制,高效习得并拓展推理能力。项目主页:https://reasoncache.github.io/
-
- 图表
- 解决问题论文试图解决大语言模型(LLMs)在不更新任何模型权重的前提下,能否通过纯上下文学习(ICL)有效掌握复杂推理能力这一根本性问题;尤其挑战了‘ICL仅支持浅层、短程模式匹配,无法支撑深度推理’的普遍假设。该问题并非全新,但此前学界普遍认为:ICL受限于上下文长度、注意力开销和表达瓶颈,必须依赖参数更新(如微调、LoRA等)才能获得可靠推理能力——本文首次系统性论证并验证:无需权重更新、不扩大上下文窗口、不增加可训练参数,仍可实现媲美甚至超越in-weight learning的推理性能。
- 关键思路提出ReasonCACHE——一种基于Prefix Tuning思想但**完全免参数更新**的推理增强机制:将少量推理示例(demonstrations)离线蒸馏为固定大小、任务特定的key-value缓存(cache),在推理时直接注入Transformer各层自注意力模块的KV缓存中;该缓存不参与梯度计算,不修改原始权重,且与输入序列长度解耦。关键新意在于:跳过传统Prefix Tuning中需训练prefix embedding的步骤,转而用可解释、可复用、低维的缓存向量显式编码推理结构(如链式逻辑、反事实推演),从而绕过ICL的上下文长度诅咒和低秩权重更新的表达天花板。
- 其它亮点• 在GPQA-Diamond等高难度推理基准上,ReasonCACHE显著超越标准ICL(+12.3%准确率),并匹配或超越主流in-weight learning方法(如LoRA、QLoRA);• 效率三重优势:数据效率(仅需4–8个示例)、推理成本(避免长上下文二次注意力计算,延迟降低37%)、参数零增长(0 trainable parameters);• 理论证明ReasonCACHE的表达能力严格强于低秩权重更新(因后者受输入矩阵秩约束,而ReasonCACHE可独立控制每层KV空间维度);• 开源代码与模型缓存已发布(https://reasoncache.github.io/),支持快速复现;• 值得深入的方向包括:缓存的跨任务泛化性、与思维链(CoT)提示的协同设计、以及在边缘设备上的轻量化部署。
- • 'Large Language Models Are Zero-Shot Reasoners' (Kojima et al., NeurIPS 2022) —— 提出Zero-Shot CoT;• 'Chain-of-Thought Prompting Elicits Reasoning in Large Language Models' (Wei et al., ICML 2022) —— 开创性CoT工作;• 'Prefix-Tuning: Optimizing Continuous Prompts for Generation' (Li & Liang, ACL 2021) —— 首提prefix tuning;• 'LoRA: Low-Rank Adaptation of Large Language Models' (Hu et al., ICLR 2022) —— 主流in-weight高效微调范式;• 'In-Context Learning and Induction Heads' (Olsson et al., Anthropic, 2022) —— 揭示ICL内在机制;• 'RAG: Retrieval-Augmented Generation' (Lewis et al., NeurIPS 2020) —— 外部知识增强,但非纯推理建模。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流