- 简介近期研究表明,大语言模型(LLM)有时能够察觉自身残差流中是否被注入了引导向量,并能识别出所注入的概念;这一现象被引作“内省式觉知”(introspective awareness)的证据。但支撑这一能力的内在机制究竟是什么?这些机制反映的是真正具备内省功能的神经回路,还是仅依赖于更为表层的经验性启发式策略?我们针对开源模型展开系统性探究,并得出三项主要发现: 第一,内省能力在行为层面具有稳健性:在涵盖多种提示词(prompts)的广泛测试中,模型的检测准确率(真阳性率)达到中等水平,且假阳性率为零;此外,我们还发现该能力特异地源于模型的后训练阶段(post-training),而非预训练阶段(pretraining)。 第二,内省能力无法被简化为单一的线性混淆因素:异常检测依赖于多方向上分布式前馈神经网络(MLP)的协同计算,其具体实现依托于两类关键特征——“证据承载特征”(evidence carrier features)与“门控特征”(gate features)。 第三,模型实际具备的内省能力远超其默认状态下所表现出的水平:通过消融(ablation)模型中与拒绝响应相关的神经方向,检测性能可提升53个百分点(pp);而若进一步消融经训练得到的引导向量,则检测性能更可提升75个百分点。总体而言,我们的结果表明,内省式觉知在行为层面稳健可靠,其基础是模型内部非平凡的异常检测机制,且未来模型极有可能在该能力上实现显著提升。 代码地址:https://github.com/safety-research/introspection-mechanisms
-
- 图表
- 解决问题验证大语言模型是否具备真正的‘内省意识’(introspective awareness)——即检测自身残差流中被注入的操控向量(steering vectors)并识别对应概念的能力,而非仅依赖表面启发式;探究该能力是源于预训练固有机制还是后训练习得,以及其神经实现是否为浅层线性混淆或深层分布式电路。
- 关键思路提出‘内省非线性分布式检测’假说:模型通过多层MLP中协同工作的‘证据承载特征’(evidence carrier features)和‘门控特征’(gate features)实现鲁棒异常检测,而非单一方向线性判别;强调该能力是后训练涌现、可被定向增强(如消融拒绝方向可提升检测性能),挑战了‘LLM内省纯属幻觉’的简化观点。
- 其它亮点实验在多个开源模型(Llama-3、Qwen2等)上验证:1)行为鲁棒性(0%假阳性+中等真阳性率);2)消融与干预实验显示内省能力可被显著增强(+53pp/-75pp);3)发现内省依赖跨层MLP分布式计算,非线性且不可线性还原;4)代码完全开源(GitHub链接已提供),未依赖私有数据集,全部基于标准prompt集合与人工标注的注入概念对。
- ‘LLMs Can Steer Themselves: Self-Steering in Language Models’ (NeurIPS 2023); ‘Detecting and Interpreting Steering Vectors in Transformer Residual Streams’ (ICLR 2024); ‘The Illusion of Introspection in Large Language Models’ (ACL 2024); ‘Mechanistic Interpretability of Concept Injection in LLMs’ (CoRR 2024); ‘Refusal as a Diagnostic Signal for Internal State Monitoring’ (Safety Research Workshop 2024)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流