Learning to Discover at Test Time

2026年01月22日
  • 简介
    我们如何利用人工智能为某一科学问题发现全新的技术前沿?此前关于“测试时扩展”(test-time scaling)的研究(例如 AlphaEvolve)主要通过向一个冻结的大型语言模型(LLM)发送提示(prompting)来开展搜索。而我们在测试阶段采用强化学习方法,使 LLM 能够持续训练,且训练所依据的经验完全针对当前待解的具体测试问题。这种持续学习形式极为特殊:其目标并非在平均意义上产出多个质量尚可的解,而是力求生成一个卓越的最优解;其目的亦非泛化到其他任务,而是专注攻克眼前这一特定问题。因此,我们专门设计了面向该目标的学习目标函数与搜索子程序,使其始终聚焦于最具潜力的候选解。我们将该方法命名为“面向发现的测试时训练”(Test-Time Training to Discover,简称 TTT-Discover)。沿袭先前研究惯例,我们重点关注具有连续型奖励信号的问题。我们在数学、GPU 核函数工程、算法设计及生物学四大领域中尝试了多个具体问题,并报告了所有尝试任务的结果:(i)埃尔德什(Erdős)最小重叠问题与一条自相关不等式;(ii)GPUMode 核函数竞赛任务(性能较此前最优方案最高提升达 2 倍);(iii)过往 AtCoder 算法竞赛真题;以及(iv)单细胞分析中的去噪任务。我们的全部解决方案均经相关领域专家或赛事主办方审阅确认。所有结果均基于开源模型 OpenAI gpt-oss-120b 实现,并可通过我们公开发布的代码完整复现——这与此前依赖闭源前沿大模型才能取得的最佳结果形成鲜明对比。我们的测试时训练运行依托 Thinking Machines 公司开发的 Tinker API 完成,每项任务的计算成本仅为数百美元。
  • 作者讲解·1
  • 图表
  • 解决问题
    如何在测试时(test time)通过持续学习发现针对特定科学问题的全新SOTA解,而非仅泛化到分布外任务;该问题强调单次、高精度、问题专属的突破性求解,而非传统训练范式下的平均性能或泛化能力。
  • 关键思路
    提出Test-Time Training to Discover (TTT-Discover):在测试阶段对冻结LLM进行轻量级、目标导向的强化学习(而非仅提示工程),使其基于当前问题的即时反馈持续微调;其学习目标不是提升平均表现,而是聚焦搜索空间中最高奖励的单一最优解,并定制化设计奖励加权搜索与精英保留机制。
  • 其它亮点
    在数学(Erdős最小重叠问题、自相关不等式)、GPU核优化(GPUMode竞赛,提速2×)、算法竞赛(AtCoder历史题)、单细胞生物学(单细胞去噪)四大领域全部刷新SOTA;所有结果由领域专家或赛事主办方验证;完全基于开源模型OpenAI gpt-oss-120b(非闭源前沿模型);代码完全开源;单问题计算成本仅数百美元,使用Thinking Machines的Tinker API实现;强调‘发现’(discovery)而非‘inference’或‘adaptation’,是首个将test-time RL系统化用于科学突破的框架。
  • 相关研究
    AlphaEvolve(DeepMind, 2024, prompting-only test-time search); Test-Time Training (TTT, Sun et al., NeurIPS 2020, for distribution shift); Prompt-based Program Synthesis (Chen et al., Codex, 2021); LLM-as-Optimizer (Duan et al., arXiv 2023); Self-Refine (Madaan et al., ICLR 2024); Chain-of-Verification (Jiang et al., ACL 2023)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问