Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models

简介

最近开发的大型语言模型（LLMs）在各种语言理解任务上表现出色。但是，它们真的能够在自然语言上“推理”吗？这个问题一直受到重视，许多推理技能，如常识、数字和定性推理，已经得到研究。然而，关于“逻辑推理”的关键技能仍未得到充分探索。现有的研究仅关注命题和一阶逻辑的一些推理规则（如假言推理和假言否定）。为了解决这个问题，我们全面评估了LLMs在涵盖命题、一阶和非单调逻辑的25种不同推理模式上的逻辑推理能力。为了进行系统评估，我们引入了LogicBench，这是一个自然语言问答数据集，专注于使用单个推理规则。我们使用思维链提示对多个LLMs进行了详细分析，如GPT-4、ChatGPT、Gemini、Llama-2和Mistral。实验结果表明，现有的LLMs在LogicBench上表现不佳，特别是在涉及复杂推理和否定的情况下。此外，它们有时会忽略推理所需的上下文信息，导致得出错误的结论。我们相信我们的工作和发现将有助于未来评估和增强LLMs的逻辑推理能力。数据和代码可在https://github.com/Mihir3009/LogicBench上获得。
图表
解决问题

该论文旨在全面评估大型语言模型（LLMs）在逻辑推理方面的能力，并提出了一个新的自然语言问答数据集LogicBench，以便系统地评估它们的逻辑推理能力。
关键思路

该论文通过使用LogicBench数据集，全面评估了现有LLMs在25种不同逻辑推理模式上的表现，包括命题、一阶和非单调逻辑。结果表明现有的LLMs在复杂推理和否定实例上表现较差，且有时会忽略推理所需的上下文信息。
其它亮点

该论文提出了一个新的自然语言问答数据集LogicBench，用于全面评估LLMs的逻辑推理能力。论文使用了多种LLMs，如GPT-4、ChatGPT、Gemini、Llama-2和Mistral，并采用了链式思考提示。实验结果表明，现有的LLMs在逻辑推理方面表现不佳，特别是在涉及复杂推理和否定实例时。此外，它们有时会忽略推理所需的上下文信息。该论文的数据和代码可以在https://github.com/Mihir3009/LogicBench上找到。
相关研究

最近的一些相关研究包括：1.《Transformers with Convolutional Context for Sequence to Sequence Learning》；2.《On the Evaluation of Commonsense Reasoning in Natural Language Understanding》；3.《A Review of Relational Reasoning》等。

Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models

评论