Mechanisms of Introspective Awareness

向作者提问

NEW

简介

近期研究表明，大语言模型（LLM）有时能够察觉自身残差流中是否被注入了引导向量，并能识别出所注入的概念；这一现象被引作“内省式觉知”（introspective awareness）的证据。但支撑这一能力的内在机制究竟是什么？这些机制反映的是真正具备内省功能的神经回路，还是仅依赖于更为表层的经验性启发式策略？我们针对开源模型展开系统性探究，并得出三项主要发现：第一，内省能力在行为层面具有稳健性：在涵盖多种提示词（prompts）的广泛测试中，模型的检测准确率（真阳性率）达到中等水平，且假阳性率为零；此外，我们还发现该能力特异地源于模型的后训练阶段（post-training），而非预训练阶段（pretraining）。第二，内省能力无法被简化为单一的线性混淆因素：异常检测依赖于多方向上分布式前馈神经网络（MLP）的协同计算，其具体实现依托于两类关键特征——“证据承载特征”（evidence carrier features）与“门控特征”（gate features）。第三，模型实际具备的内省能力远超其默认状态下所表现出的水平：通过消融（ablation）模型中与拒绝响应相关的神经方向，检测性能可提升53个百分点（pp）；而若进一步消融经训练得到的引导向量，则检测性能更可提升75个百分点。总体而言，我们的结果表明，内省式觉知在行为层面稳健可靠，其基础是模型内部非平凡的异常检测机制，且未来模型极有可能在该能力上实现显著提升。代码地址：https://github.com/safety-research/introspection-mechanisms
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

验证大语言模型是否具备真正的‘内省意识’（introspective awareness）——即检测自身残差流中被注入的操控向量（steering vectors）并识别对应概念的能力，而非仅依赖表面启发式；探究该能力是源于预训练固有机制还是后训练习得，以及其神经实现是否为浅层线性混淆或深层分布式电路。
关键思路

提出‘内省非线性分布式检测’假说：模型通过多层MLP中协同工作的‘证据承载特征’（evidence carrier features）和‘门控特征’（gate features）实现鲁棒异常检测，而非单一方向线性判别；强调该能力是后训练涌现、可被定向增强（如消融拒绝方向可提升检测性能），挑战了‘LLM内省纯属幻觉’的简化观点。
其它亮点

实验在多个开源模型（Llama-3、Qwen2等）上验证：1）行为鲁棒性（0%假阳性+中等真阳性率）；2）消融与干预实验显示内省能力可被显著增强（+53pp/-75pp）；3）发现内省依赖跨层MLP分布式计算，非线性且不可线性还原；4）代码完全开源（GitHub链接已提供），未依赖私有数据集，全部基于标准prompt集合与人工标注的注入概念对。
相关研究

‘LLMs Can Steer Themselves: Self-Steering in Language Models’ (NeurIPS 2023); ‘Detecting and Interpreting Steering Vectors in Transformer Residual Streams’ (ICLR 2024); ‘The Illusion of Introspection in Large Language Models’ (ACL 2024); ‘Mechanistic Interpretability of Concept Injection in LLMs’ (CoRR 2024); ‘Refusal as a Diagnostic Signal for Internal State Monitoring’ (Safety Research Workshop 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问