导语


集智俱乐部联合上海交通大学副教授张拳石、阿里云大模型可解释性团队负责人沈旭、彩云科技首席科学家肖达、北京师范大学硕士生杨明哲和浙江大学博士生姚云志共同发起「大模型可解释性」读书会。本读书会旨在突破大模型“黑箱”困境,尝试从不同视角梳理大语言模型可解释性的科学方法论。

基于Transformer的大语言模型拥有令人惊讶的上下文学习能力,能够在没有参数更新的情况下从少量示例中学习新任务。但这种能力的内在机制是什么?它是否与人类的认知过程存在相似性?本次分享首先探讨Transformer中的归纳注意力头是如何与人类情景记忆的CMR模型在机制上高度相似的,随后介绍一种神经反馈范式,系统量化大语言模型的元认知能力。
图片



分享简介




本次分享将介绍两项受到神经科学启发的可解释性研究:首先探讨Transformer中的归纳注意力头(induction heads)如何与人类情景记忆的CMR(上下文维护与检索)模型在机制上高度相似,揭示了大模型上下文学习的回路基础;随后介绍一种神经反馈范式,系统量化大语言模型的元认知能力——即模型监控和控制自身内部神经激活的能力。这些发现不仅为理解AI系统的工作原理提供了新的神经科学视角,也为AI安全和可解释性研究带来重要启示。





分享大纲



 

1. 背景与动机

  • 人工智能与神经科学的交叉研究价值:Neuro4AI和AI4Neuro

  • Transformer架构的上下文学习现象


2. 第一项研究:上下文学习与人类情景记忆的联系

  • 归纳头的发现与机制

    • “匹配-复制”行为模式

    • K-composition和Q-composition机制

  • 人类情景记忆的CMR模型

    • 时间上下文的动态演化

    • 非对称邻近偏差的计算机制

  • 机制相似性

    • 归纳头注意力模式类似CMR

    • 训练过程中类人记忆偏好的涌现

  • 因果验证:消融实验结果


3. 第二项研究:大语言模型的元认知能力

  • 元认知的现象与意义

  • 神经反馈范式

    • 上下文学习框架下的元认知量化

  • 元认知能力的三个层面

    • 神经激活的监控

    • 显式控制

    • 隐式控制

  • 影响因素分析

    • 语义可解释性的作用

    • 方差解释度的影响

    • 模型规模与层深的关系


4. 研究意义与展望

  • 对AI可解释性和安全的贡献

  • 认知神经科学的新研究工具





核心概念



 

  • 归纳头(Induction Heads): Transformer中负责模式匹配和复制的关键注意力机制,是上下文学习的核心组件。

  • CMR模型(Contextual Maintenance and Retrieval): 人类情景记忆的计算模型,通过时间上下文的动态维护解释记忆检索过程。

  • 神经反馈(Neurofeedback): 将内部神经激活作为反馈信号的实验范式,用于研究神经系统的自我监控能力。

  • 元认知(Metacognition): 对自身认知过程的认知,包括监控、评估和控制等高阶心理功能。

  • 残差流(Residual Stream): Transformer架构中信息传递的主要通道,为理解模型内部机制提供关键视角。





参考文献




主要论文:

  1. Li Ji-An, et al. "Linking In-context Learning in Transformers to Human Episodic Memory." NeurIPS 2024.

  2. Li Ji-An, et al. "Language Models Are Capable of Metacognitive Monitoring and Control of Their Internal Activations." arXiv      preprint (2025).

  3. Li Ji-An, Marcus K. Benna, and Marcelo G. Mattar. "Discovering Cognitive Strategies with Tiny Recurrent Neural Networks." Nature (2025).

智能之镜:NeuroAI 如何反映大脑与人工智能的未来



相关背景文献:

  • Elhage, Nelson, et al. "A mathematical framework for transformer circuits." Transformer Circuits Thread (2021).

  • Howard, M. W., & Kahana, M. J. "A distributed  representation of temporal context." Journal of Mathematical Psychology (2002).

  • Olsson, Catherine, et al. "In-context learning and induction heads." arXiv preprint (2022).





主讲人简介




李济安,加州大学圣地亚哥分校神经科学博士研究生。主要研究方向包括计算神经科学、大语言模型的机制可解释性、以及人工智能与认知科学的交叉研究。在Nature、NeurIPS等顶级期刊和会议发表多篇论文,致力于通过神经科学视角理解人工智能系统的内在机制。





参与方式




参与时间

北京时间2025年8月16日(周六)早上10:00-12:00

报名加入社群交流

(可开发票)

https://pattern.swarma.org/study_group_issue/966?from=wechat

扫码参与「大模型可解释性」读书会,加入社群,获取系列读书会永久回看权限,与社区的一线科研工作者沟通交流,共同探索大模型可解释性这一前沿领域的发展。



    大模型可解释性读书会


    集智俱乐部联合上海交通大学副教授张拳石、阿里云大模型可解释性团队负责人沈旭、彩云科技首席科学家肖达、北京师范大学硕士生杨明哲和浙江大学博士生姚云志共同发起「大模型可解释性」读书会。本读书会旨在突破大模型“黑箱”困境,尝试从以下四个视角梳理大语言模型可解释性的科学方法论:

    自下而上:Transformer circuit 为什么有效?

    自上而下:神经网络的精细决策逻辑和性能根因是否可以被严谨、清晰地解释清楚?

    复杂科学:渗流相变、涌现、自组织等复杂科学理论如何理解大模型的推理与学习能力?
    系统工程:如何拥抱不确定性,在具体的业界实践中创造价值?

    五位发起人老师会带领大家研读领域前沿论文,现诚邀对此话题感兴趣的朋友,一起共创、共建、共享「大模型可解释性」主题社区,通过互相的交流与碰撞,促进我们更深入的理解以上问题。无论您是致力于突破AI可解释性理论瓶颈的研究者,探索复杂系统与智能本质的交叉学科探索者,还是追求模型安全可信的工程实践者,诚邀您共同参与这场揭开大模型“黑箱”的思想盛宴。

    读书会已于2025年6月19日启动,每周四晚19:30-21:30,预计持续分享8-10周左右。

    图片

    详情请见:破解AI黑箱的四重视角:大模型可解释性读书会启动

    点击“阅读原文”,报名读书会

内容中包含的图片若涉及版权问题,请及时与我们联系删除