- 简介通过在推理时增加计算资源,例如生成多个独立的解决方案并从中进行选择或整合,已成为提升大语言模型(LLMs)在复杂推理任务上表现的核心方法。尽管此前大多数研究依赖于简单的多数投票或奖励模型排序来整合这些方案,但这些方法带来的提升可能有限。在本研究中,我们提出将整合能力作为一项明确的推理技能进行学习:给定一组候选方案,我们训练一个聚合模型,通过基于可验证奖励的强化学习,对方案进行审阅、协调并综合出最终正确的答案。其中关键的一点是对简单和困难的训练样例进行精细的平衡,使模型能够同时学会从多数正确的简单案例中提取答案,也能识别并恢复那些少数但正确的答案。实验表明,我们的方法 AggLM 在多个基准测试中均优于基于规则和奖励模型的强基线方法。此外,该方法还能有效泛化到训练数据中未见过的不同模型(包括性能更强的模型)所产生的解决方案,同时相比多数投票方法,在使用更多解决方案时显著减少了所需的 token 数量。
-
- 图表
- 解决问题论文旨在解决如何在测试时通过扩展计算资源(例如生成多个独立解决方案并进行聚合)来提升大语言模型(LLMs)在复杂推理任务上的表现。现有的聚合方法(如多数投票或奖励模型排序)可能效果有限,论文试图验证是否可以通过强化学习来训练一个聚合模型,以更有效地综合多个解决方案。
- 关键思路论文提出AggLM方法,通过强化学习训练一个聚合模型,使其能够审查、调和并综合多个候选解决方案,从而生成最终正确的答案。与以往方法不同,该方法强调在训练中平衡简单和困难的样本,使模型既能识别多数正确的答案,也能恢复少数但正确的解。这是首次将聚合过程建模为一个可学习的推理技能。
- 其它亮点1. AggLM在多个基准任务上优于基于规则和奖励模型的基线方法 2. 模型能够有效泛化到训练数据中未见的更强模型生成的解决方案 3. 相比多数投票方法,AggLM使用更少的生成样本即可达到更高准确率 4. 训练中引入难易样本平衡机制,以提升模型对少数正确答案的识别能力 5. 论文未提及是否开源代码,但强调了方法的通用性和效率优势
- 1. Chain-of-thought prompting improves reasoning in large language models 2. Self-consistency as a principle for reasoning with large language models 3. Reward models for improving language model outputs 4. Ensemble methods in machine learning: A general approach to improving accuracy 5. Reinforcement learning from human feedback in language model alignment


提问交流