- 简介大型语言模型(如GPTs)在广泛的应用中展现出了卓越的能力。然而,由于其内在的复杂性,这些模型在解释其内部决策过程方面存在重大挑战。缺乏透明度会在金融机构适应这些模型时带来关键挑战,因为关注偏见、公平性和可靠性的问题至关重要。机械式可解释性旨在反向工程复杂的AI模型,例如变压器。本文开创性地使用机械式可解释性来揭示大型语言模型在金融服务应用中的内部工作方式。我们提供了几个例子,说明如何设计算法任务以进行合规监测。特别是,我们研究了GPT-2 Small在提示识别潜在违反公平借贷法时的注意模式。使用直接logit归因,我们研究了每个层及其相应的注意头对残差流中logit差异的贡献。最后,我们设计了干净和损坏的提示,并使用激活修补作为因果干预方法,进一步定位我们的任务完成组件。我们观察到(正面的)头部$10.2$(第$10$层的头部$2$)、$10.7$和$11.3$,以及(负面的)头部$9.6$和$10.6$在任务完成中发挥了重要作用。
- 图表
- 解决问题本文试图通过机械解释的方法来揭示大型语言模型在金融服务应用中的内部决策过程,以解决这些模型的透明度不足所带来的偏见、公平性和可靠性等问题。
- 关键思路本文采用机械解释方法探究了GPT-2 Small模型在检测公平贷款违规行为时的注意力模式,并通过直接逻辑归因和激活补丁等方法对模型进行了进一步的解释和定位。
- 其它亮点本文提供了几个算法任务的例子,用于合规性监测。实验结果表明,头部10.2、10.7和11.3以及负向头部9.6和10.6在任务完成中起着重要作用。本文的方法和实验设计对于解释大型语言模型的决策过程具有重要意义。
- 最近的相关研究包括:"Attention is not Explanation"、"Interpretability Beyond Feature Attribution: Quantitative Testing with Concept Activation Vectors (TCAV)"等。
沙发等你来抢
去评论
评论
沙发等你来抢