- 简介从语言模型的激活状态中恢复出有意义的概念,是可解释性研究的核心目标。现有的特征提取方法旨在识别那些相互独立的方向性概念,但目前尚不清楚这一假设是否足以捕捉语言丰富的时序结构。具体而言,通过贝叶斯视角,我们发现稀疏自编码器(SAE)所施加的先验假设了概念在时间上的独立性,这意味着其隐含了平稳性的前提。然而,语言模型的表征却展现出复杂的时序动态特性,包括概念维度的系统性增长、依赖上下文的相关性,以及显著的非平稳性,这些都与SAE的先验假设直接相悖。受计算神经科学的启发,我们提出了一种新的可解释性目标——时序特征分析(Temporal Feature Analysis),该方法引入了时序上的归纳偏置,将某一时刻的表征分解为两个部分:一个可预测的成分,即能够从上下文中推断出的部分;以及一个残差成分,用于捕捉上下文无法解释的新颖信息。时序特征分析器能够正确解析歧义句(garden path sentences)、识别事件边界,并更广泛地区分抽象的、缓慢变化的信息与新颖的、快速变化的信息;而现有的稀疏自编码器在上述所有任务中均暴露出明显缺陷。总体而言,我们的研究结果强调,在设计鲁棒的可解释性工具时,必须采用与数据特性相匹配的归纳偏置。
- 图表
- 解决问题现有的可解释性方法(如稀疏自编码器SAE)假设语言模型中的概念是独立且静态的,难以捕捉语言丰富的时序结构和动态特性。这种假设与语言模型表征中普遍存在的上下文依赖、维度增长和非平稳性相冲突,导致现有方法在解析复杂语言现象(如歧义句、事件边界)时表现不佳。这是一个尚未被充分重视的新问题。
- 关键思路受计算神经科学启发,论文提出‘时序特征分析’(Temporal Feature Analysis),引入时序归纳偏置,将某时刻的表征分解为两部分:可由上下文预测的部分(慢变、抽象信息)和无法预测的残差部分(新奇、快变信息)。这一思路突破了传统SAE对概念独立性和静态性的假设,更贴合语言的动态本质。
- 其它亮点实验设计涵盖对花园路径句、事件边界的识别以及抽象与新颖信息的分离;结果显示Temporal Feature Analyzers显著优于传统SAE,后者在上述任务中存在明显缺陷。论文通过贝叶斯视角揭示SAE隐含的独立性先验问题,并提供了理论支持。目前尚无提及开源代码,但该框架为未来研究开辟了新方向,尤其值得在更大规模模型和多样化语言任务中进一步验证。
- 1. Towards Monosemanticity: Decomposing Language Models With Dictionary Learning 2. Sparse Autoencoders Learn Localised, Interpretable Representations in Language Models 3. A Mechanistic Interpretability Analysis of Pre-Training at Scale 4. Discovering Latent Knowledge in Language Models with Minimal Supervision 5. Circuit Extraction from Transformer Networks by Greedy Search


提问交流