Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling

简介

测试时扩展（Test-Time Scaling, TTS）是通过在推理阶段增加计算资源来提升大语言模型（LLMs）性能的重要方法。然而，当前的研究并未系统分析策略模型、过程奖励模型（PRMs）和问题难度对TTS的影响。这种分析的缺乏限制了对TTS方法的理解和实际应用。本文聚焦于两个核心问题：(1) 在不同的策略模型、PRMs和问题难度水平下，最优的测试时计算扩展方法是什么？(2) 扩展计算能在多大程度上提升LLMs在复杂任务上的表现，较小的语言模型能否通过这种方法超越较大的模型？通过在MATH-500和具有挑战性的AIME24任务上的全面实验，我们得出以下观察结果：(1) 计算最优的TTS策略高度依赖于所选的策略模型、PRM和问题难度。(2) 采用我们的计算最优TTS策略，极小的策略模型可以超越较大的模型。例如，在MATH-500任务中，一个10亿参数的LLM可以超过4050亿参数的LLM。此外，在MATH-500和AIME24任务中，5亿参数的LLM优于GPT-4o，30亿参数的LLM超越了4050亿参数的LLM，而70亿参数的LLM则胜过了o1和DeepSeek-R1，并且具有更高的推理效率。这些发现表明，适应特定任务和模型特征的TTS策略非常重要，并且表明TTS是增强LLMs推理能力的一个有前途的方法。
图表
解决问题

论文试图解决如何通过测试时扩展（Test-Time Scaling, TTS）优化大型语言模型（LLMs）在不同政策模型、过程奖励模型（PRMs）和问题难度下的性能表现。这并不是一个全新的问题，但当前的研究缺乏系统性分析这些因素对TTS的影响。
关键思路

关键思路是探索并确定针对不同政策模型、PRMs和问题难度的最优TTS策略。研究表明，通过适当的TTS策略，较小的语言模型可以在特定任务上超越较大的模型，尤其是在复杂的推理任务中。相比现有研究，这篇论文更深入地探讨了TTS策略与模型及任务特性的匹配关系。
其它亮点

该论文的主要亮点包括：1) 系统性地分析了不同模型和任务下TTS策略的效果；2) 实验设计涵盖了MATH-500和AIME24等复杂数据集；3) 发现小规模模型在优化后的TTS策略下能够超越大规模模型，例如1B参数的LLM在MATH-500上超过了405B参数的LLM；4) 提出了适应具体任务和模型特性的TTS策略的重要性；5) 没有提及是否开源代码，但实验结果为未来研究提供了重要参考。
相关研究

最近的相关研究包括《Scaling Laws for Neural Language Models》、《Optimizing Inference Efficiency in Large Language Models》和《Enhancing Reasoning Abilities of LLMs via Test-Time Adaptation》等论文，这些研究主要集中在模型规模与性能的关系、推理效率优化以及通过测试时调整提升模型能力等方面。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论