Reliable Reasoning Beyond Natural Language

简介

尽管具有语言能力，但大型语言模型（LLMs）在可靠和灵活推理方面经常存在局限性。为了解决这个问题，我们提出了一种神经符号方法，促使LLMs从问题陈述中提取和编码所有相关信息作为逻辑代码语句，然后使用逻辑编程语言（Prolog）进行显式演绎推理的迭代计算。我们的方法显著提高了LLMs在标准数学推理基准测试GSM8k和BIG-bench数据集的Navigate数据集上的性能。此外，我们还介绍了一个新的数据集，非线性推理（NLR）数据集，包括55个独特的单词问题，针对LLMs的下一个令牌预测范例的缺点，并要求进行复杂的非线性推理，但只需要基本算术技能来解决。我们的研究结果表明，Prolog的集成使LLMs能够在NLR数据集上实现高性能，即使是最先进的语言模型（包括GPT4）也无法仅使用文本解决。
图表
解决问题

提高大型语言模型在数学推理中的表现
关键思路

采用神经符号方法，通过逻辑编程语言Prolog进行显式演绎推理，从而提高大型语言模型的表现
其它亮点

论文使用神经符号方法显式地编码逻辑语句，将大型语言模型与Prolog集成，提高了模型在数学推理中的表现。论文还提出了一个新的数据集NLR，用于测试模型的非线性推理能力。实验结果表明，该方法在GSM8k和Navigate数据集上均取得了良好的表现，而且在NLR数据集上的表现超过了目前最先进的语言模型。
相关研究

该论文与之前的研究相比，采用了神经符号方法来提高大型语言模型在数学推理中的表现。此外，还有一些研究关注于使用不同的技术来提高大型语言模型的推理能力，例如使用图神经网络或增加外部知识库。相关的论文包括《GraphQA: Protein Model Quality Assessment using Graph Convolutional Networks》和《KILT: a Benchmark for Knowledge Intensive Language Tasks》等。

Reliable Reasoning Beyond Natural Language

评论