- 简介推理时间扩展对最近模型的成功至关重要,例如OpenAI o1和DeepSeek R1。然而,许多用于训练模型以实现推理时间扩展的技术需要任务的答案可以被验证,这限制了它们在数学、编程和逻辑推理等领域的应用。我们从人类如何进行初次尝试、向他人寻求详细反馈并在广泛开放的任务中根据这种反馈进行改进中获得灵感。为此,我们收集数据并训练专门的反馈和编辑模型,这些模型能够在开放领域的一般任务中执行推理时间扩展。在我们的设置中,一个模型生成初始响应,第二个模型对这些响应提供反馈,第三个模型则根据这些反馈编辑响应。我们展示了通过增加初始响应草稿的数量、有效的反馈和编辑后的响应,可以在Arena Hard这一强预测性聊天机器人竞技场Elo基准测试中提升性能。当最优扩展时,基于Llama 3系列70B模型的设置可以在2025年3月5日达到Arena Hard的最先进性能92.7,超越了OpenAI o1-preview-2024-09-12的90.4和DeepSeek R1的92.3。
- 图表
- 解决问题论文试图解决在开放领域任务中应用推理时间扩展(inference-time scaling)的问题。现有的方法主要依赖于可验证答案的任务,如数学、编程和逻辑推理,这限制了其在更广泛领域的应用。因此,该研究旨在通过模拟人类反馈和改进过程,开发一种新的框架以支持开放领域任务的推理时间扩展。
- 关键思路关键思路是创建一个由三个模型组成的系统:生成初始响应的模型、提供反馈的模型以及根据反馈进行编辑的模型。这种方法模仿了人类创作过程中初稿、反馈和修改的过程,从而使得推理时间扩展可以应用于更广泛的开放领域任务。相比现有研究,这一框架突破了任务类型对推理时间扩展应用的限制,为开放领域任务提供了新的解决方案。
- 其它亮点该研究展示了通过增加初始响应草案的数量、有效的反馈和编辑响应,可以在Arena Hard基准测试中显著提升性能。使用Llama 3家族的70B参数模型,该系统达到了92.7的SoTA性能,超过了OpenAI o1-preview-2024-09-12和DeepSeek R1。此外,该研究还强调了反馈机制的重要性,并证明了多轮迭代可以提高最终输出的质量。虽然文中未明确提及,但开源代码和数据集的可用性将极大地促进后续研究。
- 最近的相关研究包括OpenAI的o1系列模型和DeepMind的DeepSeek R1,这些研究都集中在如何利用大规模预训练模型来提升特定任务的性能。其他相关工作还包括《Scaling Laws for Neural Language Models》和《The Surprising Creativity of Digital Evolution》,它们探讨了模型规模与性能之间的关系以及如何通过反馈机制提升模型的表现。
沙发等你来抢
去评论
评论
沙发等你来抢