Procedural Knowledge in Pretraining Drives Reasoning in Large Language Models

简介

近年来，大型语言模型的能力和局限性已经被详细描绘出来，提供了一个既引人入胜又充满矛盾的画面。一方面，大型语言模型展示了解决各种问题的一般能力。另一方面，与人类相比，它们在推理方面表现出令人惊讶的不足，这让人对它们的泛化策略的稳健性产生了怀疑。由于设计大型语言模型时使用了海量数据，传统的泛化测量方法——训练集和测试集分离——已经无法适用。为了解决这一问题，我们通过研究大型语言模型所依赖的预训练数据，探讨它们在执行推理任务时采用的泛化策略。对于两个不同规模的模型（70亿参数和350亿参数）及其25亿预训练令牌，我们确定了哪些文档对三个简单的数学推理任务的模型输出有影响，并将这些数据与回答事实性问题时有影响力的文档进行对比。我们发现，虽然模型对每个事实性问题主要依赖不同的数据集，但在同一任务内的不同推理问题中，某个文档往往具有相似的影响，这表明存在程序性知识。此外，我们还发现，事实性问题的答案经常出现在最有影响力的文档中。然而，对于推理问题，答案通常不会出现在高度有影响力的文档中，中间推理步骤的答案也是如此。当我们定性地分析排名最高的推理问题文档时，我们确认这些有影响力的文档通常包含程序性知识，例如展示如何使用公式或代码来获得解决方案。我们的研究结果表明，模型使用的推理方法不像检索，而更像是一种可以从类似推理形式的文档中综合程序性知识的可泛化策略。
图表
解决问题

该论文探讨了大型语言模型（LLMs）在执行推理任务时所采用的泛化策略。具体来说，它试图理解这些模型如何利用预训练数据来解决数学推理问题，与回答事实性问题时的数据使用情况进行了对比。
关键思路

论文的关键思路是通过分析不同大小的LLM（7B和35B参数量）在处理特定数学推理任务时所依赖的预训练数据，来揭示模型的推理机制。研究发现，对于推理任务，模型更倾向于从包含过程知识的文档中学习，而不是简单地检索答案或中间步骤。
其它亮点

1. 研究发现，对于不同的数学推理任务，模型依赖的是相似的文档集，表明模型可能是在合成过程知识而非直接检索答案。 2. 实验设计包括对两个不同规模的模型（7B和35B参数量）进行分析，使用了2.5B个预训练数据 token。 3. 论文提供了详细的定性分析，确认了影响最大的文档通常包含解决类似问题的方法和步骤。 4. 该研究为理解LLMs的推理能力提供了新的视角，指出了未来研究的方向。
相关研究

1. 'Probing Neural Network Comprehension of Natural Language Arguments' - 该研究探讨了神经网络在自然语言论证中的理解能力。 2. 'Understanding Generalization in Deep Learning via Tensor Methods' - 这篇论文通过张量方法研究了深度学习中的泛化问题。 3. 'On the Origin of Implicit Regularization in Stochastic Gradient Descent' - 该研究探讨了随机梯度下降中的隐式正则化现象。 4. 'A Survey on Bias and Fairness in Machine Learning' - 这篇综述文章讨论了机器学习中的偏见和公平性问题。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论