- 简介现有的评估大型语言模型(LLMs)推理能力的方法都是以结果为中心的,难以评估推理过程。我们提出了一种新方法,利用抽象和推理语料库(ARC)数据集以过程为中心的方式评估大型语言模型的推理和上下文理解能力。ARC要求问题解决具备严谨的逻辑结构,成为了一个基准,可以比较模型推理能力与人类的能力。实验结果表明,尽管大型语言模型具有较弱的推理能力,但在逻辑连贯性、组合性和生产力方面仍然落后。我们的实验突显了LLMs的推理能力,提出了实现人类级别推理的发展路径。
-
- 图表
- 解决问题评估大型语言模型的推理能力和上下文理解能力
- 关键思路使用ARC数据集对大型语言模型进行过程中心的推理能力和上下文理解能力的评估
- 其它亮点实验结果表明,大型语言模型虽然具有一定的推理能力,但在逻辑一致性、组合性和生产力方面仍然落后于人类。论文提出了提高大型语言模型推理能力的发展路径,值得进一步研究。
- 最近的相关研究包括GPT-3和Turing-NLG等大型语言模型的研究。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流