Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models

2024年04月23日
  • 简介
    最近开发的大型语言模型(LLMs)在各种语言理解任务上表现出色。但是,它们真的能够在自然语言上“推理”吗?这个问题一直受到重视,许多推理技能,如常识、数字和定性推理,已经得到研究。然而,关于“逻辑推理”的关键技能仍未得到充分探索。现有的研究仅关注命题和一阶逻辑的一些推理规则(如假言推理和假言否定)。为了解决这个问题,我们全面评估了LLMs在涵盖命题、一阶和非单调逻辑的25种不同推理模式上的逻辑推理能力。为了进行系统评估,我们引入了LogicBench,这是一个自然语言问答数据集,专注于使用单个推理规则。我们使用思维链提示对多个LLMs进行了详细分析,如GPT-4、ChatGPT、Gemini、Llama-2和Mistral。实验结果表明,现有的LLMs在LogicBench上表现不佳,特别是在涉及复杂推理和否定的情况下。此外,它们有时会忽略推理所需的上下文信息,导致得出错误的结论。我们相信我们的工作和发现将有助于未来评估和增强LLMs的逻辑推理能力。数据和代码可在https://github.com/Mihir3009/LogicBench上获得。
  • 图表
  • 解决问题
    该论文旨在全面评估大型语言模型(LLMs)在逻辑推理方面的能力,并提出了一个新的自然语言问答数据集LogicBench,以便系统地评估它们的逻辑推理能力。
  • 关键思路
    该论文通过使用LogicBench数据集,全面评估了现有LLMs在25种不同逻辑推理模式上的表现,包括命题、一阶和非单调逻辑。结果表明现有的LLMs在复杂推理和否定实例上表现较差,且有时会忽略推理所需的上下文信息。
  • 其它亮点
    该论文提出了一个新的自然语言问答数据集LogicBench,用于全面评估LLMs的逻辑推理能力。论文使用了多种LLMs,如GPT-4、ChatGPT、Gemini、Llama-2和Mistral,并采用了链式思考提示。实验结果表明,现有的LLMs在逻辑推理方面表现不佳,特别是在涉及复杂推理和否定实例时。此外,它们有时会忽略推理所需的上下文信息。该论文的数据和代码可以在https://github.com/Mihir3009/LogicBench上找到。
  • 相关研究
    最近的一些相关研究包括:1.《Transformers with Convolutional Context for Sequence to Sequence Learning》;2.《On the Evaluation of Commonsense Reasoning in Natural Language Understanding》;3.《A Review of Relational Reasoning》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论