TEMPO: Scaling Test-time Training for Large Reasoning Models

2026年04月21日
  • 简介
    测试时训练(Test-time Training, TTT)在推理阶段针对无标注的测试样本动态调整模型参数,从而持续拓展模型能力,突破离线训练的固有局限。然而,尽管初期效果显著,现有面向大语言模型(LRMs)的TTT方法很快便陷入性能瓶颈,无法从额外的测试时计算资源中获益。若缺乏外部校准机制,策略模型在演化过程中所依赖的自生成奖励信号将逐渐偏移,进而同时导致性能停滞与输出多样性坍塌。为此,我们提出TEMPO——一种TTT框架,其核心在于交替执行两项操作:一是在无标注问题上持续精炼策略模型;二是周期性地在有标注数据集上对评判模型(critic)进行重新校准。我们进一步借助期望最大化(Expectation-Maximization, EM)算法对这一交替流程进行形式化建模,发现此前各类方法实为缺失关键校准步骤的不完整变体。重新引入该步骤,不仅可收紧证据下界(Evidence Lower Bound, ELBO),更能实现性能的持续提升。在涵盖不同模型家族(Qwen3与OLMO3)及多种推理任务的广泛实验中,TEMPO显著提升了模型表现:OLMO3-7B在AIME 2024上的准确率由33.0%提升至51.1%,Qwen3-14B则由42.3%跃升至65.8%,且全程保持高度的输出多样性。
  • 作者讲解
  • 图表
  • 解决问题
    现有测试时训练(TTT)方法在大型推理模型(LRMs)上存在性能快速饱和、无法随测试时计算增加而持续提升的问题,根源在于缺乏外部监督的自生成奖励信号随策略演化而漂移,导致性能 plateau 和输出多样性坍塌。
  • 关键思路
    提出TEMPO框架,通过交替执行策略优化(在无标签测试问题上)与批评者(critic)周期性再校准(在小规模有标签数据集上),将该过程形式化为EM算法:E步(隐变量推断,即用当前critic评估策略输出)和M步(策略更新),其中critic再校准对应EM中对证据下界(ELBO)的显式收紧,填补了此前TTT方法缺失的关键闭环反馈环节。
  • 其它亮点
    在AIME 2024数学推理基准上,OLMO3-7B提升18.1个百分点(33.0%→51.1%),Qwen3-14B提升23.5个百分点(42.3%→65.8%);显著维持输出多样性(未报告具体指标但明确对比基线的多样性坍塌);验证跨模型家族(Qwen3、OLMO3)和跨任务泛化性;方法仅需极少量标注数据(如数百题)用于critic校准,不依赖额外人工标注或外部API;论文未提及其是否开源代码,但框架设计轻量、模块解耦,易于复现;未来可探索自动选择校准时机、多critic集成、或与测试时蒸馏/验证器联合优化。
  • 相关研究
    Test-Time Training with Self-Supervision (ICML 2022); TTT++: Test-Time Training with Test-Time Augmentation (NeurIPS 2023); Reasoning Distillation for Test-Time Adaptation (ACL 2024); Self-Refine: Iterative Refinement with Self-Feedback (ICLR 2024); CRITIC: Learning to Critique and Improve Language Models (arXiv 2023)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问