- 简介在这项工作中,我们提出使用机械式可解释性技术——将模型权重反向工程成可解释的人类算法——来推导并简洁证明模型性能的形式保证。我们通过正式下界限定151个小型Transformer在Max-of-k任务上的准确性来原型化这种方法。我们创建了102种不同的计算机辅助证明策略,并评估它们在每个模型上的证明长度和紧度。使用定量指标,我们表明较短的证明似乎需要并提供更多的机械理解,而更忠实的机械理解导致更紧密的性能界限。我们通过定性检查我们证明的一个子集来确认这些联系。最后,我们确定复合无结构噪声是使用机械式可解释性来生成模型性能紧凑证明的一个关键挑战。
- 图表
- 解决问题本文旨在使用机械解释性技术,将模型权重逆向成人可解释的算法,从而推导出对模型性能的正式保证。作者使用这种方法来对151个小型transformer模型在Max-of-k任务上的准确性进行正式的下界估计。
- 关键思路使用机械解释性技术来推导出对模型性能的正式保证,并通过量化指标和定性分析证明了机械解释性和证明紧密度之间的关联。
- 其它亮点作者使用了102种不同的计算机辅助证明策略,并评估了它们在每个模型上的证明长度和紧密度。实验结果表明,较短的证明似乎需要和提供更多的机械理解,并且更忠实的机械理解导致更紧密的性能保证。最后,作者还指出,复合无结构噪声是使用机械解释性来生成紧凑证明的关键挑战。
- 最近的相关研究包括:《Interpretability Beyond Feature Attribution: Quantitative Testing with Concept Activation Vectors (TCAV)》、《Learning to Explain: An Information-Theoretic Perspective on Model Interpretation》等。
沙发等你来抢
去评论
评论
沙发等你来抢