- 简介本文研究了大型语言模型(LLMs)的安全性问题,即使进行了安全对齐,它们仍可能生成有害内容和错误信息。从机械解释的角度出发,本文探讨了安全对齐的内部机制,重点是识别和分析 LLMs 中负责安全行为的安全神经元。我们提出了生成时激活对比来定位这些神经元,并提出了动态激活修补来评估它们的因果效应。对多个最近的LLMs的实验表明:(1)安全神经元稀疏而有效,只需要对所有神经元的约5%进行干预就可以恢复90%的安全性能;(2)安全神经元编码可传递的机制,在不同的红团队数据集上表现出一致的有效性。安全神经元的发现还解释了“对齐税”的概念。我们观察到,安全和有用性的关键神经元显著重叠,但它们需要共享神经元的不同激活模式。此外,我们展示了安全神经元在生成之前检测不安全输出的应用。我们的发现可能促进进一步研究LLM对齐的理解。源代码将公开发布以促进未来的研究。
- 图表
- 解决问题论文旨在从机械解释性的角度探索安全对齐的内部机制,特别是识别和分析LLM中负责安全行为的安全神经元,以解决LLM存在的安全风险问题。
- 关键思路通过提出生成时激活对比和动态激活修补的方法,定位和评估安全神经元的因果效应。研究表明安全神经元是稀疏且有效的,且具有可转移的机制。
- 其它亮点实验结果显示,仅对所有神经元的约5%进行干预即可恢复90%的安全性能。安全神经元的发现也解释了“对齐税”。研究还展示了安全神经元在生成之前检测不安全输出的应用。研究代码将公开发布。
- 最近的相关研究包括《Language Models as Few-Shot Learners》、《Towards Safe and Reliable Language Model Evaluation》等。
沙发等你来抢
去评论
评论
沙发等你来抢