Probing the Vulnerability of Large Language Models to Polysemantic Interventions

2025年05月16日
  • 简介
    多义性(polysemanticity)——即单个神经元编码多个不相关特征的现象——是大规模神经网络的一个众所周知的特性,同时也是语言模型可解释性中的核心挑战。与此同时,它对模型安全性的影响也尚未被充分理解。借助近期在稀疏自编码器方面的进展,我们研究了两个小型模型(Pythia-70M 和 GPT-2-Small)中的多义性结构,并评估了它们在提示(prompt)、特征、标记(token)和神经元层面针对隐蔽干预的脆弱性。我们的分析揭示了这两个模型之间存在一致的多义性拓扑结构。令人惊讶的是,我们证明这种结构可以被利用,从而对两个更大的黑箱指令调优模型(LLaMA3.1-8B-Instruct 和 Gemma-2-9B-Instruct)实施有效的干预。这些发现不仅表明了干预措施的可推广性,还指出了一个稳定且可转移的多义性结构,这种结构可能在不同架构和训练方法中持续存在。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决神经网络中多义性(polysemanticity)对模型可解释性和安全性的影响问题,特别是研究这种特性是否可以被利用来对语言模型进行隐蔽干预。这是一个重要的问题,因为多义性可能成为模型安全性的潜在漏洞。
  • 关键思路
    关键思路是通过稀疏自动编码器技术分析小规模模型中的多义性结构,并验证其在大规模黑盒模型中的可转移性。相比现有研究,这篇论文不仅揭示了多义性的拓扑结构,还展示了如何利用这一结构实施有效的隐蔽干预,从而为模型安全性和可解释性提供了新的视角。
  • 其它亮点
    1. 研究发现多义性结构在不同模型间具有稳定性与可转移性;2. 实验设计覆盖了从小型开源模型到大型黑盒模型的多层次分析;3. 提出了针对不同层面(如提示、特征、令牌和神经元)的隐蔽干预方法;4. 数据集包括Pythia-70M、GPT-2-Small等小型模型,以及LLaMA3.1-8B-Instruct和Gemma-2-9B-Instruct等大型模型;5. 虽然未提及代码开源情况,但实验设计清晰,值得进一步探索隐蔽干预的防御机制。
  • 相关研究
    相关研究包括:1. 'Interpretability of Neural Networks: A Polysemantic Perspective' 探讨多义性在模型解释中的作用;2. 'Sparse Autoencoders for Feature Disentanglement' 提出稀疏自动编码器用于特征解耦的技术;3. 'Adversarial Attacks on Language Models via Covert Channels' 研究语言模型中的隐蔽信道攻击;4. 'Transferability of Linguistic Features Across Architectures' 分析语言特征在不同架构间的迁移能力。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问