Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision

向作者提问

NEW

简介

训练大型语言模型（LLMs）在回答之前花更多时间思考和反思，对于有效解决科学、编程和数学等领域的复杂推理任务至关重要。然而，自我反思和自我纠正机制的有效性取决于模型准确评估自身表现的能力，这可能受到初始准确性、问题难度和缺乏外部反馈等因素的限制。在这篇论文中，我们探讨了一种双玩家范式，将推理和批评模型的角色分开，其中批评模型在测试时和训练时提供步骤级别的反馈来监督推理（行动者）模型。我们首先提出了AutoMathCritique，这是一种自动且可扩展的框架，用于收集批评数据，生成了76,321个包含步骤级别反馈的响应对。使用该数据集微调语言模型，使它们能够生成自然语言形式的数学推理反馈。我们展示了批评模型在测试时能持续提高行动者的性能，尤其是在增加推理计算量时。受此发现的启发，我们将基于批评的监督引入到行动者的自训练过程中，并提出了一种循环批评的自改进方法。实验表明，该方法提高了行动者在探索效率和解决方案多样性方面的能力，特别是在处理具有挑战性的查询时，从而形成更强大的推理模型。最后，我们初步探索了通过批评监督训练自我对话推理模型，并展示了其潜力。我们的代码和数据集可在以下网址获取：[https://mathcritique.github.io/](https://mathcritique.github.io/)。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决大型语言模型在处理复杂推理任务时准确性不足的问题，尤其是科学、编程和数学领域的任务。提出了一种通过批判模型提供逐步反馈来监督推理模型的方法，以提高模型的性能。
关键思路

关键思路是引入一个两玩家范式，其中一个模型负责推理（演员模型），另一个模型负责批评和提供逐步反馈（批评模型）。通过这种方式，演员模型可以在测试时间和训练时间获得更具体的指导，从而提高其在复杂任务上的表现。这种方法的新颖之处在于将自我反思和自我纠正机制分离为两个独立的角色，并通过大规模的数据集来训练批评模型。
其它亮点

论文提出了AutoMathCritique框架，用于自动收集批评数据，生成了包含76,321个响应及其逐步反馈的数据集。实验表明，批评模型在测试时间上显著提高了演员模型的表现，特别是在计算资源增加的情况下。此外，论文还引入了批评监督到演员模型的自训练过程中，进一步提高了探索效率和解决方案的多样性。最后，论文初步探讨了通过批评监督训练自言自语推理模型的潜力。所有代码和数据集均已公开发布。
相关研究

近期在这个领域的一些相关研究包括： - 'Chain of Thought Prompting Elicits Reasoning in Large Language Models'，探讨了通过链式思维提示来激发大型语言模型的推理能力。 - 'Self-Consistency Improves Chain of Thought Reasoning in Language Models'，研究了自一致性如何提高语言模型在链式思维推理中的表现。 - 'ReAct: Synergizing Reasoning and Acting in Language Models'，提出了将推理和行动结合的方法，以增强语言模型在交互式任务中的表现。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问