Decomposing and Editing Predictions by Modeling Model Computation

简介

这篇论文介绍了一个名为“组件建模”的任务，旨在回答机器学习模型如何将输入转化为预测的内部计算过程。组件建模的目标是将ML模型的预测分解为其组成部分，即简单的函数（例如卷积滤波器、注意力头），这些函数是模型计算的“构建块”。作者们关注组件建模的一个特殊情况，即组件归因，其目标是估计单个组件对给定预测的反事实影响。然后，作者们提出了一种可扩展的算法COAR，用于估计组件归因；他们展示了其在模型、数据集和模态方面的有效性。最后，作者们展示了使用COAR直接实现模型编辑的五个任务，即修复模型错误、“遗忘”特定类别、提高子人群的鲁棒性、定位后门攻击和提高对印刷攻击的鲁棒性。作者们在https://github.com/MadryLab/modelcomponents上提供了COAR的代码。
图表
解决问题

本文旨在解决机器学习模型如何将输入转换为预测的问题，提出了一种称为组件建模的任务，旨在将ML模型的预测分解为其组件，即简单的函数（例如卷积滤波器，注意力头），这些函数是模型计算的“构建块”。特别是，本文关注组件归因的情况，即旨在估计单个组件对给定预测的反事实影响。最终，本文展示了COAR算法的有效性，该算法可估计组件归因，并直接实现了模型编辑的五个任务，包括修复模型错误，忘记特定类别，提高子人群的鲁棒性，定位后门攻击以及提高对排版攻击的鲁棒性。
关键思路

本文提出了一种组件建模的任务，用于将机器学习模型的预测分解为其组件，并且提出了COAR算法，用于估计组件归因，从而实现模型编辑的五个任务。
其它亮点

本文提供了一种新的方法来理解机器学习模型的内部计算过程，即通过将预测分解为其组件来进行组件建模和归因。此外，本文提出的COAR算法在各种模型，数据集和模式下都具有良好的可扩展性。最后，本文还展示了COAR算法在修复模型错误，提高模型鲁棒性等方面的实际应用。
相关研究

近年来，一些研究已经开始探索机器学习模型的可解释性和透明性，例如《Interpretable Machine Learning: A Brief History, State-of-the-Art and Challenges》和《A Survey on Explainable Artificial Intelligence (XAI): From Big Data to Knowledge Graphs》。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论