Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding

2024年11月06日
  • 简介
    大型语言模型(LLMs)展现出了令人印象深刻的能力,但在需要多步骤的复杂推理任务上仍然存在困难。虽然基于提示的方法,如链式思维(CoT),可以在推理时提高LLM的推理能力,但在训练过程中优化推理能力仍然是一个挑战。我们引入了潜在推理优化(LaTRO),这是一个将推理建模为从潜在分布中采样的原则性框架,并通过变分方法对其进行优化。LaTRO使LLM能够在不依赖外部反馈或奖励模型的情况下,同时提高其推理过程和评估推理质量的能力。我们通过在GSM8K和ARC-Challenge数据集上使用多种模型架构进行实验来验证LaTRO。在GSM8K上,LaTRO在零样本准确性方面平均比基础模型提高了12.5%,比监督微调提高了9.6%,这一结果是在Phi-3.5-mini、Mistral-7B和Llama-3.1-8B上取得的。我们的研究结果表明,预训练的LLM具备潜在的推理能力,这些能力可以通过我们提出的优化方法以自改进的方式被解锁和增强。LaTRO的代码可在以下网址获取:[https://github.com/SalesforceAIResearch/LaTRO](https://github.com/SalesforceAIResearch/LaTRO)。
  • 图表
  • 解决问题
    论文试图解决大型语言模型(LLMs)在复杂多步骤推理任务上的不足,尤其是如何在训练过程中优化推理能力的问题。这并不是一个全新的问题,但现有的方法大多依赖于外部反馈或奖励模型。
  • 关键思路
    论文提出了LaTent Reasoning Optimization (LaTRO) 框架,通过将推理过程视为从潜在分布中采样,并采用变分方法进行优化。这一方法使LLMs能够在没有外部反馈的情况下,同时提升推理过程和评估推理质量的能力。相比现有方法,LaTRO在自优化方面具有显著优势。
  • 其它亮点
    论文在GSM8K和ARC-Challenge数据集上进行了广泛的实验,验证了LaTRO的有效性。结果显示,在零样本情况下,LaTRO平均提升了12.5%的准确率,优于基线模型和监督微调。此外,LaTRO适用于多种模型架构,包括Phi-3.5-mini、Mistral-7B和Llama-3.1-8B。该研究还表明,预训练的LLMs具备潜在的推理能力,可以通过LaTRO进一步挖掘和增强。代码已开源,可在GitHub上获取。
  • 相关研究
    近期在LLM推理优化方面的相关研究还包括:1) Chain-of-Thought (CoT) 方法,通过多步提示来改善推理;2) Reward Modeling,利用外部奖励信号优化推理过程;3) Self-Consistency Training,通过生成多个候选答案并选择最一致的答案来提高推理质量。例如,论文《Chain of Thought Prompting Elicits Reasoning in Large Language Models》和《Self-Consistency Improves Chain of Thought Reasoning in Language Models》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论