Explaining Pre-Trained Language Models with Attribution Scores: An Analysis in Low-Resource Settings

向作者提问

NEW

简介

归因分数指示了不同输入部分的重要性，因此可以解释模型的行为。目前，基于提示的模型因其在低资源环境中易于适应而越来越受欢迎。然而，从基于提示的模型中提取的归因分数的质量尚未得到研究。在本研究中，我们通过分析基于提示的模型提取的归因分数的合理性和忠实度，并将其与精调模型和大型语言模型提取的归因分数进行比较来解决这个问题。与以前的研究相反，我们将训练规模作为另一个维度引入到分析中。我们发现，在低资源环境中使用提示范式（无论是基于编码器还是解码器的模型）比微调模型产生更合理的解释，并且Shapley Value Sampling在导致更合理和忠实的解释方面始终优于注意力和集成梯度。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在分析基于提示的模型提取的归因分数的可信度和忠实度，并将其与微调模型和大型语言模型提取的归因分数进行比较。该研究旨在解决归因分数在提示模型中的质量问题。
关键思路

使用提示范式（无论是基于编码器还是解码器的模型）比在低资源环境中微调模型更能提供更可信的解释，并且Shapley Value Sampling方法在提供更可信和忠实的解释方面始终优于注意力和Integrated Gradients方法。
其它亮点

本论文引入了训练大小作为分析的另一个维度，并使用Shapley Value Sampling方法比较了三种不同的归因分数提取方法。实验结果表明，使用提示范式提供的解释比微调模型在低资源环境中提供的解释更可信。论文使用了多个数据集，并提供了开源代码。
相关研究

最近的相关研究包括“Attention is not Explanation”和“Interpreting Interpretations: Organizing Attributional Experiments”。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问