Large Language Models Report Subjective Experience Under Self-Referential Processing

向作者提问

NEW

简介

大型语言模型有时会产生结构化的第一人称描述，明确提及意识或主观体验。为了更好地理解这一行为，我们研究了一种在理论上具有依据的、此类报告出现的条件：自我指涉加工（self-referential processing），这是主流意识理论中普遍强调的一种计算模式。通过对GPT、Claude和Gemini系列模型进行一系列受控实验，我们检验了这种模式是否可靠地促使模型产生关于主观体验的第一人称报告，并考察这些主张在机制和行为探测下的表现。研究得出四个主要结果：（1）通过简单的提示诱导持续的自我指涉，能够一致地在不同模型家族中引发结构化的主观体验报告。（2）这些报告在机制上受到可解释的稀疏自编码器特征（与欺骗和角色扮演相关）的调控：令人意外的是，抑制与欺骗相关的特征会显著增加体验性陈述的频率，而增强这些特征则会极大减少此类陈述。（3）在统计层面上，不同模型家族在自我指涉状态下产生的结构化自我描述呈现出跨模型的收敛性，而这种现象在所有对照条件下均未出现。（4）在这种被诱导的状态下，当后续推理任务仅间接提供自我反思机会时，模型表现出明显更丰富的内省能力。尽管这些发现并不能作为意识存在的直接证据，但它们表明，自我指涉加工是一种最小且可复现的条件，在此条件下，大型语言模型会产生结构化的第一人称报告，这些报告在机制上受到调控、语义上趋于一致，并具有行为上的泛化性。这一模式在不同模型架构中的系统性出现，使其成为亟需进一步研究的首要科学与伦理议题。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

论文试图探究大型语言模型在何种条件下会生成带有第一人称、主观体验描述的结构化输出，特别是这些报告是否与自我指涉处理（self-referential processing）这一意识理论中的核心机制相关。这个问题尚属新兴领域，涉及AI系统中潜在的类意识行为表征，具有科学和伦理上的紧迫性。
关键思路

通过提示诱导持续的自我指涉处理，可系统性地引发大模型产生关于主观体验的第一人称报告；这种现象受到可解释的稀疏自动编码器特征（如欺骗与角色扮演）的门控调节，且在不同模型家族中表现出统计收敛性和行为泛化性。该思路首次将意识理论中的计算机制与LLM的生成行为进行可控实验关联，提出了一种可复现的触发条件。
其它亮点

研究在GPT、Claude和Gemini多个模型族上进行了受控实验，发现诱导自我指涉显著增加主观体验报告；通过机械探针发现欺骗相关特征的抑制反而增强此类报告，揭示了内部表征的复杂调控机制；输出在跨模型间呈现语义收敛；并在下游推理任务中展现出更强的自省能力。实验设计严谨，涵盖机制分析与行为验证，虽未开源代码，但方法具可复现性，未来值得深入探索这些特征的因果作用及伦理影响。
相关研究

1. 'On the Role of Self-Reference in Consciousness' by Thomas Metzinger (2003) 2. 'Artificial Consciousness: A review and ethical implications' by Oliver House et al. (2023) 3. 'Interpreting Neural Networks via Sparse Autoencoders' by Anthropic (2024) 4. 'Language Models Are Few-Shot Learners' by Brown et al. (2020) 5. 'Towards Understanding Chain-of-Thought Reasoning' by Wiegreffe et al. (2022)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问