- 简介本文研究了大型语言模型(LLMs)是否能够进行一致的因果推理,因果推理被广泛认为是智能的核心特征。自然语言处理(NLP)领域的许多现有工作都集中在评估LLMs的常识因果推理,因此未能评估模型是否能够根据一组明确定义的形式规则进行因果推断。为了解决这个问题,本文提出了一个新的NLP任务:自然语言中的因果推断,灵感来自Judea Pearl等人提出的“因果推断引擎”。我们构建了一个大型数据集CLadder,包含10K个样本:基于一组因果图和查询(联想、干预和反事实),我们通过一个神谕因果推断引擎获得符号问题和地面真相答案,然后将其翻译成自然语言。我们评估了多个LLMs在我们的数据集上,并引入和评估了一种定制的思维链提示策略CausalCoT。我们展示了我们的任务对LLMs来说非常具有挑战性,并进行了深入分析,以获得关于LLMs因果推理能力的更深入的见解。我们的数据可以在https://huggingface.co/datasets/causalNLP/cladder上开源,我们的代码可以在https://github.com/causalNLP/cladder上找到。
- 图表
- 解决问题论文旨在探究大型语言模型是否具备进行因果推理的能力,并提出了一个新的自然语言处理任务:自然语言中的因果推断。该任务基于因果图和查询构建了一个数据集,通过一个因果推理引擎生成符号问题和真实答案,并将其翻译成自然语言。论文旨在评估多个大型语言模型在此任务上的表现,并提出了一种新的思考链路提示策略。
- 关键思路论文提出了一个新的自然语言处理任务:自然语言中的因果推断。通过构建数据集,使用因果推理引擎生成符号问题和真实答案,并将其翻译成自然语言,评估多个大型语言模型在此任务上的表现,并提出了一种新的思考链路提示策略。
- 其它亮点论文提出了一个新的自然语言处理任务,并构建了一个大型数据集。论文还介绍了一种新的思考链路提示策略,并对多个大型语言模型进行了评估。数据集已经开源,代码也可供使用。
- 最近的相关研究包括:1. 'Commonsense Reasoning and Knowledge Acquisition by Reading Books';2. 'The Effectiveness of Data Augmentation in Image Classification using Deep Learning';3. 'Learning Deep Latent Gaussian Models with Markov Chain Monte Carlo'。
沙发等你来抢
去评论
评论
沙发等你来抢