A & B == B & A: Triggering Logical Reasoning Failures in Large Language Models - 智源社区论文

向作者提问

NEW

简介

近年来，大型语言模型（LLMs）的最新进展推动了人工智能（AI）的发展，使得在各种任务中取得了突破，例如写作辅助、代码生成和机器翻译。先进的LLMs，如ChatGPT，具有显著的“推理”能力。然而，评估LLMs的推理能力仍然是一个挑战，因为大多数现有的评估都集中在它们在下游任务上的准确性，而不是直接评估它们的推理过程。已经努力开发基准和指标来评估LLMs的推理能力，但它们存在数据泄漏或范围有限的问题。在本文中，我们介绍了LogicAsker，一种自动方法，它基于命题和谓词逻辑，全面评估和改进LLMs的逻辑推理能力。结果提供了对LLMs推理能力的洞察，并揭示了LLMs没有学好的逻辑规则。我们在六个广泛部署的LLMs上评估了LogicAsker，包括GPT-3、ChatGPT、GPT-4、Bard、Vicuna和Guanaco。结果显示，LogicAsker的测试用例可以以25％-94％的速率在不同的LLMs中发现逻辑推理失败。此外，LogicAsker的测试用例可以进一步用于设计上下文学习的演示示例，有效提高LLMs的逻辑推理能力，例如GPT-4提高了10％。据我们所知，我们的工作是首次基于测试结果创建提示来有效提高LLMs的形式推理能力。所有代码、数据和结果都将发布以供复制和未来研究。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

评估和提高大型语言模型的逻辑推理能力
关键思路

LogicAsker：基于命题和谓词逻辑的原子推理技能的自动评估方法，通过测试结果设计提示来提高LLMs的逻辑推理能力
其它亮点

LogicAsker可以全面评估和提高LLMs的逻辑推理能力，测试结果可以用于设计提示来提高模型的逻辑推理能力，实验结果显示LogicAsker可以在不同的LLMs中发现25％-94％的逻辑推理失败，代码、数据和结果将被公开发布
相关研究

最近的相关研究主要集中在评估LLMs的下游任务准确性，而LogicAsker是第一个自动评估和提高LLMs逻辑推理能力的方法

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问