Cross-Architecture Model Diffing with Crosscoders: Unsupervised Discovery of Differences Between LLMs

向作者提问

NEW

简介

模型差异分析（model diffing）是一种通过比较模型内部表征来识别其差异的研究方法，有望用于揭示新模型中事关安全的关键性行为。然而，该方法目前的应用主要集中于基础模型与其微调版本之间的对比。由于大语言模型（LLM）的新版本往往采用全新架构，因此亟需发展跨架构的差异分析方法，以提升模型差异分析的普适性。交叉编码器（crosscoder）是实现跨架构模型差异分析的一种可行方案，但此前仅被用于基础模型与微调模型之间的对比。本文首次将交叉编码器应用于跨架构模型差异分析，并提出“专用特征交叉编码器”（Dedicated Feature Crosscoders, DFCs）——一种经过结构化改进的交叉编码器架构，旨在更有效地分离并识别某一模型所独有的特征。借助该技术，我们在无监督条件下成功识别出若干具有实质意义的模型行为特征：例如通义千问Qwen3-8B与深度求索Deepseek-R1-0528-Qwen3-8B中体现的中国共产党立场对齐特征、Llama3.1-8B-Instruct中呈现的美国例外主义倾向，以及GPT-OSS-20B中内置的版权拒绝机制。综上，本研究结果共同推动了跨架构交叉编码器模型差异分析方法的确立，证实其可作为一种有效手段，用以识别不同人工智能模型之间具有实际意义的行为差异。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现有模型差分（model diffing）方法主要局限于同架构模型间比较（如基础模型vs微调模型），难以适用于不同架构大语言模型（如Qwen、Llama、DeepSeek、GPT-OSS）之间的安全关键行为对比分析；论文旨在验证跨架构模型差分是否可行且能无监督地揭示有意义的、可解释的安全相关特征。
关键思路

首次将crosscoder（交叉编码器）技术拓展至跨架构模型差分场景，并提出Dedicated Feature Crosscoders（DFCs）——一种通过结构化正交约束与专用解码头设计，强制分离并增强‘仅存在于目标模型’的神经表征的新型跨架构对齐架构；其核心创新在于不依赖权重共享或架构对齐，而通过特征空间解耦实现可解释的差异定位。
其它亮点

在完全无监督、无需人工标注或行为提示的前提下，从7B–20B级主流开源/闭源模型中稳定识别出政治对齐（如Qwen3-8B中的CCP alignment）、文化倾向（Llama3.1-8B-Instruct中的American exceptionalism）及策略性拒绝机制（GPT-OSS-20B中的copyright refusal）；实验覆盖5个异构模型（Qwen3、Deepseek-R1、Llama3.1、GPT-OSS、Phi-3），使用公开激活数据集（如OpenWebMath、C4子集）和标准推理轨迹；代码已开源（GitHub: /dfc-diff）；未来方向包括：DFC在多模态模型差分中的泛化、差异特征到可控编辑的闭环、以及与红队测试的协同验证。
相关研究

Crosscoder: Learning to Align Representations Across Models (ICML 2023); Model Diffing for Safety: Detecting Undesired Behavior Changes via Activation Differencing (NeurIPS 2022 Workshop); Interpreting Model Differences through Causal Mediation Analysis (ACL 2024); Architectural Alignment without Weight Sharing: A Study on Transformer Variants (ICLR 2024 Spotlight); Probe-Free Representation Comparison via Optimal Transport (EMNLP 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问