Priors in Time: Missing Inductive Biases for Language Model Interpretability

2025年11月03日
  • 简介
    从语言模型的激活状态中恢复出有意义的概念,是可解释性研究的核心目标。现有的特征提取方法旨在识别那些相互独立的方向性概念,但目前尚不清楚这一假设是否足以捕捉语言丰富的时序结构。具体而言,通过贝叶斯视角,我们发现稀疏自编码器(SAE)所施加的先验假设了概念在时间上的独立性,这意味着其隐含了平稳性的前提。然而,语言模型的表征却展现出复杂的时序动态特性,包括概念维度的系统性增长、依赖上下文的相关性,以及显著的非平稳性,这些都与SAE的先验假设直接相悖。受计算神经科学的启发,我们提出了一种新的可解释性目标——时序特征分析(Temporal Feature Analysis),该方法引入了时序上的归纳偏置,将某一时刻的表征分解为两个部分:一个可预测的成分,即能够从上下文中推断出的部分;以及一个残差成分,用于捕捉上下文无法解释的新颖信息。时序特征分析器能够正确解析歧义句(garden path sentences)、识别事件边界,并更广泛地区分抽象的、缓慢变化的信息与新颖的、快速变化的信息;而现有的稀疏自编码器在上述所有任务中均暴露出明显缺陷。总体而言,我们的研究结果强调,在设计鲁棒的可解释性工具时,必须采用与数据特性相匹配的归纳偏置。
  • 图表
  • 解决问题
    现有的可解释性方法(如稀疏自编码器SAE)假设语言模型中的概念是独立且静态的,难以捕捉语言丰富的时序结构和动态特性。这种假设与语言模型表征中普遍存在的上下文依赖、维度增长和非平稳性相冲突,导致现有方法在解析复杂语言现象(如歧义句、事件边界)时表现不佳。这是一个尚未被充分重视的新问题。
  • 关键思路
    受计算神经科学启发,论文提出‘时序特征分析’(Temporal Feature Analysis),引入时序归纳偏置,将某时刻的表征分解为两部分:可由上下文预测的部分(慢变、抽象信息)和无法预测的残差部分(新奇、快变信息)。这一思路突破了传统SAE对概念独立性和静态性的假设,更贴合语言的动态本质。
  • 其它亮点
    实验设计涵盖对花园路径句、事件边界的识别以及抽象与新颖信息的分离;结果显示Temporal Feature Analyzers显著优于传统SAE,后者在上述任务中存在明显缺陷。论文通过贝叶斯视角揭示SAE隐含的独立性先验问题,并提供了理论支持。目前尚无提及开源代码,但该框架为未来研究开辟了新方向,尤其值得在更大规模模型和多样化语言任务中进一步验证。
  • 相关研究
    1. Towards Monosemanticity: Decomposing Language Models With Dictionary Learning 2. Sparse Autoencoders Learn Localised, Interpretable Representations in Language Models 3. A Mechanistic Interpretability Analysis of Pre-Training at Scale 4. Discovering Latent Knowledge in Language Models with Minimal Supervision 5. Circuit Extraction from Transformer Networks by Greedy Search
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问