深度学习模型已经成为 NLP 的标准工具,在解决许多问题上大显神通。然而其黑盒性质也成为一大问题,对系统的可控性、可信任度都造成影响。在医疗、金融等领域,对模型可解释的需求都日益增加。

目前,NLP 的可解释领域中已经有了不少工作,其中更加基本也更核心的问题是:

如何评估解释的好坏?如果没有一个直接的、统一的标准,又有什么制定标准的原则可以是值得参考和遵守的?

据作者个人目前了解,还没有工作提出一个能说服大部分人的解释的标准——或者只能定性而非定量分析(例如可视化方法),或者很大程度基于主观认识(例如 contrast set,或者和人工标注进行对比等),或者不能从根本上说明问题(例如对抗方法),有的甚至没有办法和其他方法进行比较孰优孰劣…… 说白了,所有人都像是在摸着石头过河。

但是,如果不将这一问题说明白,建立共识性的认知,那么可以说所有的解释工具都只是自说自话,解释也将和深度学习本身一样化为“玄学”(甚至比玄学更玄,因为我们甚至不知道目标在哪里),再多 fancy 的 technique 也只会使我们离真实越来越远。

本文将解读一篇发表在 ACL 2020 的综述文章 Towards Faithfully Interpretable NLP Systems: How Should We Define and Evaluate Faithfulness?,分享其中关于可解释评估的一些现状分析和思考。(当然,或许仅凭借这一篇文章也无法给出正确的结论,但是至少它可以提供了一些讨论的基础)

为了节约大家时间,先把文章的结论放在前面:

  • 可解释的评估包含似然性和忠实性的评估,而人的参与只会把评估变为似然性评估,对证明模型具有真正的可解释能力——即忠实性方面毫无用处。

  • 忠实性的评估可以分为三个基本的原则假设,即模型假设、预测假设和线性假设(关于具体假设的内容请见下文)。

  • 忠实性不应该是一个“是”或“否”的评估,不然完全忠实的模型如同真空中的球形鸡,是不存在的。我们应该在更细微的“灰度”上评估忠实度,即使这些解释不具有全局性和明确的忠实性,也可以使解释有用。

如果感兴趣的可以戳原文阅读本文完整的解读。

内容中包含的图片若涉及版权问题,请及时与我们联系删除