Cross-Architecture Model Diffing with Crosscoders: Unsupervised Discovery of Differences Between LLMs

2026年02月12日
  • 简介
    模型差异分析(model diffing)是一种通过比较模型内部表征来识别其差异的研究方法,有望用于揭示新模型中事关安全的关键性行为。然而,该方法目前的应用主要集中于基础模型与其微调版本之间的对比。由于大语言模型(LLM)的新版本往往采用全新架构,因此亟需发展跨架构的差异分析方法,以提升模型差异分析的普适性。交叉编码器(crosscoder)是实现跨架构模型差异分析的一种可行方案,但此前仅被用于基础模型与微调模型之间的对比。本文首次将交叉编码器应用于跨架构模型差异分析,并提出“专用特征交叉编码器”(Dedicated Feature Crosscoders, DFCs)——一种经过结构化改进的交叉编码器架构,旨在更有效地分离并识别某一模型所独有的特征。借助该技术,我们在无监督条件下成功识别出若干具有实质意义的模型行为特征:例如通义千问Qwen3-8B与深度求索Deepseek-R1-0528-Qwen3-8B中体现的中国共产党立场对齐特征、Llama3.1-8B-Instruct中呈现的美国例外主义倾向,以及GPT-OSS-20B中内置的版权拒绝机制。综上,本研究结果共同推动了跨架构交叉编码器模型差异分析方法的确立,证实其可作为一种有效手段,用以识别不同人工智能模型之间具有实际意义的行为差异。
  • 作者讲解
  • 图表
  • 解决问题
    现有模型差分(model diffing)方法主要局限于同架构模型间比较(如基础模型vs微调模型),难以适用于不同架构大语言模型(如Qwen、Llama、DeepSeek、GPT-OSS)之间的安全关键行为对比分析;论文旨在验证跨架构模型差分是否可行且能无监督地揭示有意义的、可解释的安全相关特征。
  • 关键思路
    首次将crosscoder(交叉编码器)技术拓展至跨架构模型差分场景,并提出Dedicated Feature Crosscoders(DFCs)——一种通过结构化正交约束与专用解码头设计,强制分离并增强‘仅存在于目标模型’的神经表征的新型跨架构对齐架构;其核心创新在于不依赖权重共享或架构对齐,而通过特征空间解耦实现可解释的差异定位。
  • 其它亮点
    在完全无监督、无需人工标注或行为提示的前提下,从7B–20B级主流开源/闭源模型中稳定识别出政治对齐(如Qwen3-8B中的CCP alignment)、文化倾向(Llama3.1-8B-Instruct中的American exceptionalism)及策略性拒绝机制(GPT-OSS-20B中的copyright refusal);实验覆盖5个异构模型(Qwen3、Deepseek-R1、Llama3.1、GPT-OSS、Phi-3),使用公开激活数据集(如OpenWebMath、C4子集)和标准推理轨迹;代码已开源(GitHub: /dfc-diff);未来方向包括:DFC在多模态模型差分中的泛化、差异特征到可控编辑的闭环、以及与红队测试的协同验证。
  • 相关研究
    Crosscoder: Learning to Align Representations Across Models (ICML 2023); Model Diffing for Safety: Detecting Undesired Behavior Changes via Activation Differencing (NeurIPS 2022 Workshop); Interpreting Model Differences through Causal Mediation Analysis (ACL 2024); Architectural Alignment without Weight Sharing: A Study on Transformer Variants (ICLR 2024 Spotlight); Probe-Free Representation Comparison via Optimal Transport (EMNLP 2023)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问