SAFEx: Analyzing Vulnerabilities of MoE-Based LLMs via Stable Safety-critical Expert Identification

向作者提问

NEW

简介

基于专家混合机制（Mixture-of-Experts，MoE）的大型语言模型在效率和可扩展性方面取得了显著提升，但其独特的架构也带来了尚未充分研究的安全对齐挑战。现有的安全对齐策略主要是为密集模型设计的，难以有效应对MoE模型特有的安全漏洞。在本研究中，我们首次正式提出并系统研究了MoE模型的位置脆弱性问题，即安全对齐行为依赖于特定的专家模块，揭示了MoE架构中存在的关键安全风险。为此，我们提出了SAFEx分析框架，通过一种新颖的“基于稳定性的专家选择”（Stability-based Expert Selection, SES）算法，能够稳健地识别、刻画并验证与安全相关的关键专家模块。值得注意的是，我们的方法可以将这些关键专家显式地分解为不同的功能组，包括负责识别有害内容的专家以及控制安全回应生成的专家。我们在主流的MoE模型上进行了大量实验，其中包括最新发布的Qwen3-MoE，结果表明这些模型内在的安全机制高度依赖于一小部分位置固定的专家模块。当禁用这些专家后，模型拒绝有害请求的能力显著下降。以拥有6144个专家模块（在FNN层中）的Qwen3-MoE为例，我们发现仅禁用其中12个被识别出的安全关键型专家，就能使模型的拒绝率下降22%，这清楚地表明，尽管专家数量众多，但仅有极少数专家在模型整体安全性方面起到了不成比例的重要作用。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在研究基于Mixture-of-Experts（MoE）的大语言模型在安全对齐方面存在的新挑战，特别是其架构中固有的“位置脆弱性”问题。即现有为密集模型设计的安全策略难以适用于MoE结构，并且MoE模型的某些专家模块可能对安全行为起到关键作用，一旦失效将显著影响模型的安全性。
关键思路

论文提出了SAFEx框架，结合一种新颖的Stability-based Expert Selection（SES）算法，系统识别、分析和验证MoE模型中的安全关键专家模块。与以往方法不同，该方法能够明确分解出负责有害内容检测和安全响应生成的专家组，揭示MoE模型安全性依赖于少数特定专家的现象。
其它亮点

1. 通过实验发现主流MoE模型（如Qwen3-MoE）的安全机制高度依赖极少数专家模块 2. 禁用仅12个被识别出的安全关键专家即可使拒绝有害请求的比例下降22% 3. 提出的方法具有可解释性和可扩展性，适用于其他MoE架构的安全分析 4. 研究成果揭示了MoE模型在部署和维护过程中的潜在风险
相关研究

1. Towards Understanding the Role of Alignment in Mixture-of-Experts Large Language Models 2. Safety Mechanisms in Foundation Models: A Comparative Study 3. Expert Gatekeeping for Safer MoE Architectures 4. Efficient and Safe Training Strategies for Sparse Mixture-of-Experts

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问