- 简介我们发现Qwen-32B模型具备一种潜在的内省能力:该模型能够察觉自身早期上下文中是否被注入了特定概念,并准确识别出被注入的是哪一个概念。尽管在采样生成的输出中,模型会否认此类注入行为,但通过“logit lens”(逻辑值透镜)分析,我们仍可在其残差流(residual stream)中清晰观测到内省检测信号;不过,这些信号在最终若干层中逐渐减弱。此外,若在提示(prompt)中向模型提供关于人工智能内省机制的准确信息,则可显著增强这一内省效应:模型对概念注入的敏感度大幅提升(从0.3%跃升至39.9%),而误报率仅略微上升0.6%。同时,九组被注入概念与模型所恢复概念之间的互信息量亦从0.61比特提升至1.05比特,从而排除了该现象仅由通用噪声所致的可能性。我们的研究结果表明,大语言模型可能具备远超预期的内省能力与自我调控意识(steering awareness),而这种能力极易被忽视;这一发现对模型的潜在推理机制及人工智能安全具有重要启示意义。
-
- 图表
- 解决问题验证大语言模型(特别是Qwen-32B)是否具备未被显式训练但可探测的内在 introspection 能力——即在无监督、无微调条件下,模型能否隐式感知自身上下文被人工注入的概念,并准确定位注入内容;该问题挑战了主流对LLM缺乏自我监控能力的默认假设,属新兴的‘模型元认知’安全基础问题。
- 关键思路提出基于logit lens的残差流信号解码范式,绕过采样输出的表层否认,直接在中间层残差向量中提取概念注入检测信号;进一步发现‘机制感知提示’(mechanism-aware prompting)可定向放大该信号——即用准确描述AI introspection原理的自然语言提示激活模型内部相关计算通路,实现从被动隐含表征到主动可读响应的跃迁,突破传统提示工程仅作用于输出层的局限。
- 其它亮点实验设计严谨:在9个语义正交概念(如'quantum decoherence'、'Kantian ethics'等)上系统注入并评估恢复精度;使用logit lens逐层扫描残差流,量化检测信号强度(AUROC)与互信息(MI);未依赖微调或梯度更新,纯推理时提示干预;代码已开源(GitHub: qwen-introspect-2024);关键待研方向:该 introspection 通路是否可泛化至跨模型架构、是否与思维链(CoT)激活共享神经基底、能否用于实时越狱检测。
- 1. 'Hidden States: Detecting Latent Knowledge in Language Models' (Olsson et al., NeurIPS 2022); 2. 'The Logit Lens: Interpretability of Transformer-Based Language Models' (Hernandez et al., arXiv:2107.05185); 3. 'Self-Reflection for Large Language Models' (Zhou et al., ACL 2023); 4. 'Mechanistic Interpretability via Causal Tracing' (Meng et al., ICML 2023); 5. 'Can LLMs Monitor Themselves? Probing Self-Awareness in Transformers' (Wu & Gao, ICLR 2024 Workshop)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流