- 简介大型语言模型(LLMs)能够解决广泛的任务,但它们在推理方面一直表现不佳。为了解决这一问题,我们提出了**附加逻辑训练(ALT)**,该方法旨在通过程序生成的逻辑推理样本来增强LLMs的推理能力。首先,我们通过整合符号逻辑理论和以往的经验洞察,建立了设计高质量样本的原则。然后,基于这些原则,我们构建了一个名为**形式逻辑演绎多样化**(**FLD²**)的合成语料库,该语料库包含大量多步演绎样本,涉及未知事实、多样化的推理规则、多样的语言表达和具有挑战性的干扰项。最后,我们通过实验证明,在FLD²上进行ALT可以显著提升最先进LLMs的推理能力,包括LLaMA-3.1-70B。改进包括在逻辑推理基准测试中最多提高30分,在数学和编程基准测试中最多提高10分,以及在基准套件BBH中提高5分。
- 图表
- 解决问题该论文旨在解决大型语言模型(LLMs)在逻辑推理方面表现不佳的问题。这是一个持续存在的挑战,尽管LLMs在许多其他任务上表现出色。
- 关键思路论文提出了一种名为‘附加逻辑训练(ALT)’的方法,通过生成的逻辑推理样本对LLMs进行额外训练,以增强其推理能力。这种方法结合了符号逻辑理论和先前的经验洞察,构建了一个名为‘形式逻辑演绎多样化’(FLD²)的合成语料库。
- 其它亮点论文展示了ALT在FLD²上的应用显著提高了LLMs的推理能力,包括在逻辑推理基准测试中提升30分,在数学和编程基准测试中提升10分,在BBH基准套件中提升5分。此外,论文详细描述了FLD²的设计原则,包括多步演绎、未知事实、多样化的推理规则、语言表达和干扰项。这些设计使得FLD²成为一个高质量的训练数据集。论文还提到,所有实验代码和数据集均已开源,为未来的研究提供了基础。
- 近期在逻辑推理增强方面的相关研究还包括:1) ‘Chain-of-Thought Prompting Elicits Reasoning in Large Language Models’,探讨了通过链式思维提示来改善LLMs的推理能力;2) ‘LogicNLG: A Dataset for Logical Reasoning and Natural Language Generation’,提出了一个用于逻辑推理和自然语言生成的数据集;3) ‘Reasoning-Augmented Pre-training for Commonsense Inference’,研究了如何通过增强预训练来提高常识推理能力。
沙发等你来抢
去评论
评论
沙发等你来抢