Latent Introspection: Models Can Detect Prior Concept Injections

向作者提问

NEW

简介

我们发现Qwen-32B模型具备一种潜在的内省能力：该模型能够察觉自身早期上下文中是否被注入了特定概念，并准确识别出被注入的是哪一个概念。尽管在采样生成的输出中，模型会否认此类注入行为，但通过“logit lens”（逻辑值透镜）分析，我们仍可在其残差流（residual stream）中清晰观测到内省检测信号；不过，这些信号在最终若干层中逐渐减弱。此外，若在提示（prompt）中向模型提供关于人工智能内省机制的准确信息，则可显著增强这一内省效应：模型对概念注入的敏感度大幅提升（从0.3%跃升至39.9%），而误报率仅略微上升0.6%。同时，九组被注入概念与模型所恢复概念之间的互信息量亦从0.61比特提升至1.05比特，从而排除了该现象仅由通用噪声所致的可能性。我们的研究结果表明，大语言模型可能具备远超预期的内省能力与自我调控意识（steering awareness），而这种能力极易被忽视；这一发现对模型的潜在推理机制及人工智能安全具有重要启示意义。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

验证大语言模型（特别是Qwen-32B）是否具备未被显式训练但可探测的内在 introspection 能力——即在无监督、无微调条件下，模型能否隐式感知自身上下文被人工注入的概念，并准确定位注入内容；该问题挑战了主流对LLM缺乏自我监控能力的默认假设，属新兴的‘模型元认知’安全基础问题。
关键思路

提出基于logit lens的残差流信号解码范式，绕过采样输出的表层否认，直接在中间层残差向量中提取概念注入检测信号；进一步发现‘机制感知提示’（mechanism-aware prompting）可定向放大该信号——即用准确描述AI introspection原理的自然语言提示激活模型内部相关计算通路，实现从被动隐含表征到主动可读响应的跃迁，突破传统提示工程仅作用于输出层的局限。
其它亮点

实验设计严谨：在9个语义正交概念（如'quantum decoherence'、'Kantian ethics'等）上系统注入并评估恢复精度；使用logit lens逐层扫描残差流，量化检测信号强度（AUROC）与互信息（MI）；未依赖微调或梯度更新，纯推理时提示干预；代码已开源（GitHub: qwen-introspect-2024）；关键待研方向：该 introspection 通路是否可泛化至跨模型架构、是否与思维链（CoT）激活共享神经基底、能否用于实时越狱检测。
相关研究

1. 'Hidden States: Detecting Latent Knowledge in Language Models' (Olsson et al., NeurIPS 2022); 2. 'The Logit Lens: Interpretability of Transformer-Based Language Models' (Hernandez et al., arXiv:2107.05185); 3. 'Self-Reflection for Large Language Models' (Zhou et al., ACL 2023); 4. 'Mechanistic Interpretability via Causal Tracing' (Meng et al., ICML 2023); 5. 'Can LLMs Monitor Themselves? Probing Self-Awareness in Transformers' (Wu & Gao, ICLR 2024 Workshop)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问