- 简介近年来,大型语言模型(LLMs)的最新进展推动了人工智能(AI)的发展,使得在各种任务中取得了突破,例如写作辅助、代码生成和机器翻译。先进的LLMs,如ChatGPT,具有显著的“推理”能力。然而,评估LLMs的推理能力仍然是一个挑战,因为大多数现有的评估都集中在它们在下游任务上的准确性,而不是直接评估它们的推理过程。已经努力开发基准和指标来评估LLMs的推理能力,但它们存在数据泄漏或范围有限的问题。在本文中,我们介绍了LogicAsker,一种自动方法,它基于命题和谓词逻辑,全面评估和改进LLMs的逻辑推理能力。结果提供了对LLMs推理能力的洞察,并揭示了LLMs没有学好的逻辑规则。我们在六个广泛部署的LLMs上评估了LogicAsker,包括GPT-3、ChatGPT、GPT-4、Bard、Vicuna和Guanaco。结果显示,LogicAsker的测试用例可以以25%-94%的速率在不同的LLMs中发现逻辑推理失败。此外,LogicAsker的测试用例可以进一步用于设计上下文学习的演示示例,有效提高LLMs的逻辑推理能力,例如GPT-4提高了10%。据我们所知,我们的工作是首次基于测试结果创建提示来有效提高LLMs的形式推理能力。所有代码、数据和结果都将发布以供复制和未来研究。
-
- 图表
- 解决问题评估和提高大型语言模型的逻辑推理能力
- 关键思路LogicAsker:基于命题和谓词逻辑的原子推理技能的自动评估方法,通过测试结果设计提示来提高LLMs的逻辑推理能力
- 其它亮点LogicAsker可以全面评估和提高LLMs的逻辑推理能力,测试结果可以用于设计提示来提高模型的逻辑推理能力,实验结果显示LogicAsker可以在不同的LLMs中发现25%-94%的逻辑推理失败,代码、数据和结果将被公开发布
- 最近的相关研究主要集中在评估LLMs的下游任务准确性,而LogicAsker是第一个自动评估和提高LLMs逻辑推理能力的方法
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流