论文 标题: CEBaB: Estimating the Causal Effects of Real-World Concepts on NLP Model Behavior|CEBaB:估计现实世界的概念对NLP模型行为的因果效应
简介:现代ML系统的规模和复杂性不断增加,提高了它们的预测能力,但使它们的行为更难解释。作为回应,许多模型解释技术已经被开发出来,但我们缺乏评估这些技术的明确标准。在本文中,我们将模型解释视为因果推理问题,即在实际输入数据的情况下,估计现实世界的概念对ML模型输出行为的因果影响。我们介绍了CEBaB,一个新的基准数据集,用于评估自然语言处理(NLP)中基于概念的解释方法。CEBaB由简短的餐厅评论和人类生成的反事实评论组成,其中就餐体验的某个方面(食物、噪音、氛围、服务)被修改。原始的和反事实的评论在方面和评论层面都有多重验证的情感评级的注释。CEBaB的丰富结构使我们能够超越输入特征,研究抽象的、真实世界的概念对模型行为的影响。我们使用CEBaB来比较一系列基于概念的解释方法的质量,这些方法涵盖了对问题的不同假设和概念,我们试图为这些方法的比较评估建立自然指标。

内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢