Do Larger Language Models Imply Better Reasoning? A Pretraining Scaling Law for Reasoning

2025年04月04日
  • 简介
    大型语言模型 (LLMs) 在需要复杂推理的广泛任务中展现了卓越的能力。然而,规模扩展对其推理能力的影响仍不够清晰。在本文中,我们引入了一种合成的多步推理环境,旨在紧密复制现实世界大规模知识图谱的结构和分布。我们的推理任务涉及填补知识图谱中的缺失边,这需要高级的多步推理能力,并且模拟了现实世界的推理场景。为此,我们从头开始预训练语言模型 (LMs),仅使用不完整图谱中的三元组数据,并评估这些模型推断缺失边的能力。有趣的是,我们观察到过度参数化可能会因过多的记忆化而损害推理性能。我们研究了影响这种 U 型损失曲线的各种因素,包括图结构、模型大小和训练步数。为了预测适用于特定知识图谱的最佳模型大小,我们发现了一种经验性的缩放规律,该规律可以将知识图谱的搜索熵线性映射到最佳模型大小。本研究为规模扩展与 LLM 推理能力之间的关系提供了新的见解,并揭示了优化其在推理任务中性能的可能方法。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决大型语言模型(LLMs)在多跳推理任务中的性能与模型规模之间的关系问题,特别是过参数化是否会导致推理能力下降。这是一个相对新颖的问题,因为它深入探讨了模型规模与推理能力之间的非线性关系。
  • 关键思路
    论文的关键思路是通过构建一个合成的多跳推理环境来模拟真实世界的知识图谱,并设计一个基于三元组的预训练任务以评估模型对缺失边的推理能力。研究发现,过参数化可能导致模型过度记忆数据而非学习推理能力,提出了一种基于知识图谱搜索熵的经验公式来预测最优模型规模。
  • 其它亮点
    论文通过控制变量实验分析了图结构、模型规模和训练步数对推理性能的影响,并提出了一个线性映射方法来预测特定知识图谱的最佳模型规模。实验使用了自定义合成知识图谱数据集,但未提及代码开源情况。未来值得探索的方向包括将该方法应用于更大规模的真实世界知识图谱以及进一步优化模型架构以减少记忆效应。
  • 相关研究
    最近的相关研究包括:1)《Scaling Laws for Neural Language Models》探讨了模型规模对生成任务的影响;2)《Emergent Abilities of Large Language Models》研究了大规模模型的新颖能力;3)《Knowledge Graph Completion via Multi-Hop Reasoning》专注于多跳推理的知识图谱补全任务。这些研究共同构成了理解模型规模与推理能力之间关系的基础。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问