Large Language Monkeys: Scaling Inference Compute with Repeated Sampling

Bradley Brown ,
Jordan Juravsky ,
Ryan Ehrlich ,
Ronald Clark ,
Quoc V. Le ,
Christopher Ré ,
Azalia Mirhoseini
2024年07月31日
  • 简介
    将用于训练语言模型的计算量进行扩展,可以显著提高其性能。然而,在推断时,我们通常仅限于每个问题尝试一次的计算量。在这里,我们探讨了推断计算作为另一个扩展维度,通过增加生成样本的数量来扩展。在多个任务和模型中,我们观察到,覆盖率(任何尝试解决的问题的比例)随着样本数量的增加而增加了四个数量级。在编码和形式证明等领域,所有答案都可以自动验证,这些覆盖率的增加直接转化为性能的提高。当我们将重复采样应用于SWE-bench Lite时,使用250个样本的DeepSeek-V2-Coder-Instruct的解决问题的比例从一个样本的15.9%增加到了56%,超过了使用更强大的前沿模型的单次尝试的最先进水平43%。此外,使用当前的API定价,将更便宜的DeepSeek模型放大五倍的样本比支付GPT-4o或Claude 3.5 Sonnet的一个样本更具成本效益,并解决了更多的问题。有趣的是,覆盖率和样本数量之间的关系通常是对数线性的,并且可以用指数幂律进行建模,这表明存在推断时间的扩展规律。最后,我们发现,在没有自动验证器的领域中,从许多生成的样本中识别正确的样本仍然是未来研究的重要方向。当解决GSM8K和MATH中的数学问题时,使用Llama-3模型的覆盖率随着样本数量的增加而增长,使用10,000个样本时超过95%。然而,常见的从样本集中选择正确解决方案的方法,例如多数投票或奖励模型,在几百个样本后就会停滞不前,并且无法完全扩展样本预算。
  • 图表
  • 解决问题
    探索使用多个样本进行推理的效果,以提高模型的覆盖率和性能。
  • 关键思路
    通过增加生成样本的数量,可以提高问题的覆盖率,从而提高模型的性能。这种方法可以用于编码和形式证明等需要自动验证答案的领域。使用更多的样本比使用更强大的前沿模型更加节约成本和有效。
  • 其它亮点
    实验结果表明,覆盖率和生成样本数量之间的关系通常是对数线性的,并且可以用指数幂律来建模。在需要手动验证答案的领域中,正确样本的选择仍然是未来研究的重要方向。在解决数学问题时,使用多达10000个样本可以将覆盖率提高到95%以上。
  • 相关研究
    与该论文相关的研究包括使用前沿模型和探索不同的推理方法来提高模型性能的研究。例如,GPT-4o和Claude 3.5 Sonnet等更强大的模型被用于单次推理,而本文提出的方法则是使用更多的样本来提高覆盖率和性能。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论