- 简介在这项工作中,我们提出使用机械解释性技术--将模型权重反向工程为人类可解释的算法--以推导和简洁证明模型性能的形式保证。我们通过正式证明151个小型Transformer在Max-of-K任务上的准确性下限来原型化这种方法。我们创建了102种不同的计算机辅助证明策略,并评估它们在我们的每个模型上的长度和紧密性。使用定量指标,我们发现较短的证明似乎需要并提供更多的机械理解。此外,我们发现更忠实的机械理解会导致更紧密的性能界限。我们通过定性地检查我们证明的子集来确认这些联系。最后,我们确定复合结构噪声是使用机械解释性来生成关于模型性能的简洁证明的一个关键挑战。
- 图表
- 解决问题本文旨在通过机械解释性技术,将模型权重反向工程为可解释的算法,以推导并紧凑证明模型性能的形式保证。具体而言,作者在151个小型transformer上进行了Max-of-K任务的形式证明下限,以验证模型性能。同时,作者也探讨了如何使用机械解释性来生成紧凑的证明的挑战。
- 关键思路本文的关键思路是使用机械解释性技术来推导并紧凑证明模型性能的形式保证。通过反向工程模型权重,将其转化为可解释的算法,并进行形式化证明。同时,本文还探讨了机械解释性技术在生成紧凑证明时面临的挑战。
- 其它亮点本文的实验设计了102种不同的计算机辅助证明策略,并评估了每个模型的证明长度和紧密度。使用定量指标发现,较短的证明似乎需要并提供更多的机械理解。此外,更忠实的机械理解导致更紧密的性能保证。最后,本文确定了复合无结构噪声是使用机械解释性来生成紧凑证明的关键挑战。本文没有提供开源代码。
- 最近在这个领域中,还有一些相关的研究,例如“Interpretable Machine Learning: A Brief History, State-of-the-Art and Challenges”和“Interpretability Beyond Feature Attribution: Quantitative Testing with Concept Activation Vectors (TCAV)”。
沙发等你来抢
去评论
评论
沙发等你来抢