- 简介因果推理被视为实现人类水平机器智能的关键。语言模型的最新进展已经扩展了人工智能在各个领域的应用范围,引发了对其因果推理潜力的探究。在这项工作中,我们介绍了因果语言模型评估(CaLM),据我们所知,这是第一个全面评估语言模型因果推理能力的基准。首先,我们提出了CaLM框架,建立了一个基础分类,包括四个模块:因果目标(即要评估什么)、适应性(即如何获得结果)、度量(即如何衡量结果)和错误(即如何分析错误结果)。这个分类定义了一个广泛的评估设计空间,同时系统地选择了标准和优先级。其次,我们组成了CaLM数据集,包括126,334个数据样本,提供了经过筛选的因果目标、适应性、度量和错误的数据集,为各种研究追求提供了广泛的覆盖范围。第三,我们对92个因果目标、9个适应性、7个度量和12种错误类型的核心数据集上的28个领先语言模型进行了广泛的评估。第四,我们对评估结果进行了详细的分析,涉及各种维度(例如适应性、规模)。第五,我们提出了50个高层次的经验发现,涵盖了9个维度(例如模型),为未来语言模型的发展提供了宝贵的指导。最后,我们开发了一个多方面的平台,包括网站、排行榜、数据集和工具包,以支持可扩展和适应性评估。我们将CaLM视为一个不断发展的社区基准,随着持续的研究进展而系统地更新新的因果目标、适应性、模型、度量和错误类型。项目网站位于https://opencausalab.github.io/CaLM。
- 图表
- 解决问题本文旨在引入Causal evaluation of Language Models (CaLM)框架,建立一个全面的基准评估语言模型的因果推理能力。作者试图解决如何评估语言模型因果推理能力的问题。
- 关键思路CaLM框架由四个模块组成,即因果目标、适应性、度量和错误,定义了广泛的评估设计空间,同时系统地选择标准和优先级。作者还构建了CaLM数据集,包括126,334个数据样本,提供了精选的因果目标、适应性、度量和错误集,为多样化的研究追求提供了广泛的覆盖。作者在92个因果目标、9个适应性、7个度量和12种错误类型上对28个领先的语言模型进行了广泛评估,并进行了详细的分析。
- 其它亮点本文提供了一个全面的基准来评估语言模型的因果推理能力,为未来的语言模型开发提供了有价值的指导。作者还开发了一个多方面的平台,包括网站、排行榜、数据集和工具包,以支持可扩展和适应性评估。
- 最近在这个领域中,还有一些相关的研究,如Counterfactual Language Models for Improved Causal Reasoning和Evaluating Causal Reasoning in Natural Language Understanding等。
沙发等你来抢
去评论
评论
沙发等你来抢