- 简介让LLM通过使用更多的测试时间计算来改进其输出是建立通常自我改进的代理人的关键步骤,这些代理人可以处理开放式的自然语言。在本文中,我们研究了LLM中推理时间计算的扩展,重点关注一个问题:如果允许LLM使用固定但非微不足道的推理时间计算量,它在应对具有挑战性的提示时可以提高多少性能?回答这个问题不仅对LLM的可实现性有影响,而且对LLM预训练的未来以及如何权衡推理时间和预训练计算也有影响。尽管这很重要,但很少有研究试图理解各种测试时间推理方法的扩展行为。此外,目前的工作在许多这些策略方面主要提供了负面结果。在这项工作中,我们分析了两个主要机制来扩展测试时间计算:(1)针对密集的基于进程的验证器奖励模型进行搜索;(2)在测试时间给定提示的情况下自适应地更新模型对响应的分布。我们发现,在这两种情况下,不同的扩展测试时间计算方法的有效性严重取决于提示的难度。这个观察结果激励应用“计算最优”扩展策略,该策略可以最有效地根据提示自适应地分配测试时间计算。使用这个计算最优策略,我们可以将测试时间计算的效率提高4倍以上,与最佳N基线相比。此外,在FLOPs匹配的评估中,我们发现,在基础模型取得相当非微不足道的成功率的问题上,测试时间计算可以用来优于14倍更大的模型。
- 图表
- 解决问题论文研究如何在LLMs中使用更多的测试时间计算来提高性能,特别是针对具有挑战性的提示问题。研究试图回答一个问题:如果一个LLM被允许使用固定但非微不足道的推理时间计算量,它在挑战性提示问题上的性能会有多大提高?
- 关键思路论文分析了两种主要机制来扩展测试时间计算:(1)针对密集的基于过程的验证器奖励模型进行搜索;(2)在测试时间根据提示自适应地更新模型对响应的分布。研究发现,不同的测试时间计算方法的效果在很大程度上取决于提示的难度,因此提出了一种“计算最优”的扩展策略,根据提示自适应地分配测试时间计算,从而提高测试时间计算的效率。
- 其它亮点论文的实验设计了哪些值得关注的亮点,使用了哪些数据集,有没有开源代码?论文发现,使用“计算最优”策略,可以将测试时间计算的效率提高4倍以上,同时在FLOPs匹配评估中,发现在基础模型获得一定成功率的问题上,测试时间计算可以用于超越一个14倍更大的模型。
- 最近的相关研究包括尝试理解各种测试时间推理方法的扩展行为的研究,以及使用强化学习来自适应地分配计算资源的研究。
沙发等你来抢
去评论
评论
沙发等你来抢