TEMPO: Scaling Test-time Training for Large Reasoning Models

向作者提问

NEW

简介

测试时训练（Test-time Training, TTT）在推理阶段针对无标注的测试样本动态调整模型参数，从而持续拓展模型能力，突破离线训练的固有局限。然而，尽管初期效果显著，现有面向大语言模型（LRMs）的TTT方法很快便陷入性能瓶颈，无法从额外的测试时计算资源中获益。若缺乏外部校准机制，策略模型在演化过程中所依赖的自生成奖励信号将逐渐偏移，进而同时导致性能停滞与输出多样性坍塌。为此，我们提出TEMPO——一种TTT框架，其核心在于交替执行两项操作：一是在无标注问题上持续精炼策略模型；二是周期性地在有标注数据集上对评判模型（critic）进行重新校准。我们进一步借助期望最大化（Expectation-Maximization, EM）算法对这一交替流程进行形式化建模，发现此前各类方法实为缺失关键校准步骤的不完整变体。重新引入该步骤，不仅可收紧证据下界（Evidence Lower Bound, ELBO），更能实现性能的持续提升。在涵盖不同模型家族（Qwen3与OLMO3）及多种推理任务的广泛实验中，TEMPO显著提升了模型表现：OLMO3-7B在AIME 2024上的准确率由33.0%提升至51.1%，Qwen3-14B则由42.3%跃升至65.8%，且全程保持高度的输出多样性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现有测试时训练（TTT）方法在大型推理模型（LRMs）上存在性能快速饱和、无法随测试时计算增加而持续提升的问题，根源在于缺乏外部监督的自生成奖励信号随策略演化而漂移，导致性能 plateau 和输出多样性坍塌。
关键思路

提出TEMPO框架，通过交替执行策略优化（在无标签测试问题上）与批评者（critic）周期性再校准（在小规模有标签数据集上），将该过程形式化为EM算法：E步（隐变量推断，即用当前critic评估策略输出）和M步（策略更新），其中critic再校准对应EM中对证据下界（ELBO）的显式收紧，填补了此前TTT方法缺失的关键闭环反馈环节。
其它亮点

在AIME 2024数学推理基准上，OLMO3-7B提升18.1个百分点（33.0%→51.1%），Qwen3-14B提升23.5个百分点（42.3%→65.8%）；显著维持输出多样性（未报告具体指标但明确对比基线的多样性坍塌）；验证跨模型家族（Qwen3、OLMO3）和跨任务泛化性；方法仅需极少量标注数据（如数百题）用于critic校准，不依赖额外人工标注或外部API；论文未提及其是否开源代码，但框架设计轻量、模块解耦，易于复现；未来可探索自动选择校准时机、多critic集成、或与测试时蒸馏/验证器联合优化。
相关研究

Test-Time Training with Self-Supervision (ICML 2022); TTT++: Test-Time Training with Test-Time Augmentation (NeurIPS 2023); Reasoning Distillation for Test-Time Adaptation (ACL 2024); Self-Refine: Iterative Refinement with Self-Feedback (ICLR 2024); CRITIC: Learning to Critique and Improve Language Models (arXiv 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问