Learning to Discover at Test Time

向作者提问

NEW

简介

我们如何利用人工智能为某一科学问题发现全新的技术前沿？此前关于“测试时扩展”（test-time scaling）的研究（例如 AlphaEvolve）主要通过向一个冻结的大型语言模型（LLM）发送提示（prompting）来开展搜索。而我们在测试阶段采用强化学习方法，使 LLM 能够持续训练，且训练所依据的经验完全针对当前待解的具体测试问题。这种持续学习形式极为特殊：其目标并非在平均意义上产出多个质量尚可的解，而是力求生成一个卓越的最优解；其目的亦非泛化到其他任务，而是专注攻克眼前这一特定问题。因此，我们专门设计了面向该目标的学习目标函数与搜索子程序，使其始终聚焦于最具潜力的候选解。我们将该方法命名为“面向发现的测试时训练”（Test-Time Training to Discover，简称 TTT-Discover）。沿袭先前研究惯例，我们重点关注具有连续型奖励信号的问题。我们在数学、GPU 核函数工程、算法设计及生物学四大领域中尝试了多个具体问题，并报告了所有尝试任务的结果：（i）埃尔德什（Erdős）最小重叠问题与一条自相关不等式；（ii）GPUMode 核函数竞赛任务（性能较此前最优方案最高提升达 2 倍）；（iii）过往 AtCoder 算法竞赛真题；以及（iv）单细胞分析中的去噪任务。我们的全部解决方案均经相关领域专家或赛事主办方审阅确认。所有结果均基于开源模型 OpenAI gpt-oss-120b 实现，并可通过我们公开发布的代码完整复现——这与此前依赖闭源前沿大模型才能取得的最佳结果形成鲜明对比。我们的测试时训练运行依托 Thinking Machines 公司开发的 Tinker API 完成，每项任务的计算成本仅为数百美元。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

如何在测试时（test time）通过持续学习发现针对特定科学问题的全新SOTA解，而非仅泛化到分布外任务；该问题强调单次、高精度、问题专属的突破性求解，而非传统训练范式下的平均性能或泛化能力。
关键思路

提出Test-Time Training to Discover (TTT-Discover)：在测试阶段对冻结LLM进行轻量级、目标导向的强化学习（而非仅提示工程），使其基于当前问题的即时反馈持续微调；其学习目标不是提升平均表现，而是聚焦搜索空间中最高奖励的单一最优解，并定制化设计奖励加权搜索与精英保留机制。
其它亮点

在数学（Erdős最小重叠问题、自相关不等式）、GPU核优化（GPUMode竞赛，提速2×）、算法竞赛（AtCoder历史题）、单细胞生物学（单细胞去噪）四大领域全部刷新SOTA；所有结果由领域专家或赛事主办方验证；完全基于开源模型OpenAI gpt-oss-120b（非闭源前沿模型）；代码完全开源；单问题计算成本仅数百美元，使用Thinking Machines的Tinker API实现；强调‘发现’（discovery）而非‘inference’或‘adaptation’，是首个将test-time RL系统化用于科学突破的框架。
相关研究

AlphaEvolve（DeepMind, 2024, prompting-only test-time search）; Test-Time Training (TTT, Sun et al., NeurIPS 2020, for distribution shift); Prompt-based Program Synthesis (Chen et al., Codex, 2021); LLM-as-Optimizer (Duan et al., arXiv 2023); Self-Refine (Madaan et al., ICLR 2024); Chain-of-Verification (Jiang et al., ACL 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问