本文作者是一名 AI 语音产品的创业者。这篇文章是她近期对于如何构建多智能体的一个思考总结,包括从 Context Engineering 到 AI Memory 的技术实践与哲学思考。

文中,引入了哲学家胡塞尔的现象学视角,通过刨析了人类与 AI 在记忆机制上的本质差异和联系。作者发现,当前 AI 的许多工程化设计,本质上都是在“拟合”人类的认知与存在方式,最终都要回到人类自身。

人类的记忆不仅仅是信息的存储与检索,它更是存在的方式。当我们说"我记得"时,我们不只是在陈述一个认知功能,而是在指向一种存在状态——我作为一个连续的、有意义的主体而存在。正如胡塞尔所说,意识总是时间性的意识,而时间性的构造离不开记忆的综合活动。

无论是对人类还是对 AI Agent,记忆与从过往经验中学习并适应新信息的能力,是智能的基础。单一的 LLM 对话框虽然在处理即时输入方面功能强大,但它不记得"你是谁",也没有从历史数据中进行学习的能力。这种局限性极大限制了 AI 进行持续、个性化和上下文感知对话的能力。Context Engineering 和 AI Memory,也是近来硅谷的工程师和 Founder 最常讨论出现的主题。

本文深入介绍 Context Engineering 和 AI memory ,回答了以下问题:

  • Context Engineering 是什么?

  • 如何做 Context Engineering ?

  • 人类的记忆与 AI 的记忆机制分别是什么?

  • AI 记忆与人类记忆在本质上存在哪些根本差异?

  • AI 真的有意识吗?AI 的记忆是否具备真正的意向性、时间性和主体性?

以及,关于如今我们所研究发展的多智能体与 AI memory, 胡塞尔先生会怎么看? 

注:现象学是由德国哲学家埃德蒙德·胡塞尔(Edmund Husserl, 1859-1938)创立的哲学方法。他原本是数学博士,但后转向哲学,致力于为所有科学奠定严格的基础。他提出了著名的口号"回到事物本身",要求我们“悬置”理论偏见,直接描述和分析意识现象的本质结构——当我们记忆、注意、体验时间时,意识中究竟发生了什么?他发现了意向性(意识总是"关于某物"的意识)、时间意识的三重结构(滞留-原印象-前摄)等核心概念,这些概念至今仍是理解意识现象的重要工具。 


超 13000 人的「AI 产品市集」社群!不错过每一款有价值的 AI 应用。

邀请从业者、开发人员和创业者,飞书扫码加群: 
图片
进群后,你有机会得到:
  • 最新、最值得关注的 AI 新品资讯; 

  • 不定期赠送热门新品的邀请码、会员码;

  • 最精准的AI产品曝光渠道



01 

Context Engineering:

构建 AI Agent 最重要的事

Context  Engineering > Prompt Engineering or RAG

什么是 Context Engineering - 上下文工程?这一词最早由 Shopify 的 CEO Tobi Lutke 在 6 月 18 日一篇推文中提出,他说自己很喜欢 "Context Engineering" 这一词,并将其描述为是"提供所有上下文,使 LLM 能够合理地解决任务的艺术"。一周后,Andrej Karpathy 转发了这条推文,强调"context engineering" 大于 "prompt engineering",并更进一步解释了它为什么重要:

与“提示工程”(Prompt Engineering)相比,我更喜欢“上下文工程”(Context Engineering)这个术语。

它能更好地描述这项核心技能:一门为大语言模型(LLM)提供充分的上下文信息,使其有能力合理地解决任务的艺术。

Andrej Karpathy 后面对此进行了更深入的阐释:

“人们通常将提示词理解为在日常使用中给 LLM 的简短任务描述,然而在每个企业级 LLM 应用中,上下文工程是一门精妙的艺术与科学,旨在为下一步操作向上下文窗口填入恰到好处的信息。说它是科学,是因为要做好这件事涉及任务描述和解释、少样本示例、RAG(检索增强生成)、相关的(可能是多模态的)数据、工具、状态和历史记录、压缩等诸多技术要素...信息太少或形式不当,LLM 就无法获得实现最佳性能所需的正确上下文。信息太多或不够相关,LLM 的成本可能上升,性能反而可能下降。要做好这一点绝非易事。说它是艺术,是因为需要对 LLM 的‘心理机制’有着近乎直觉的洞察和把握。”

在我看来,简单来说上下文工程其实是在构建一个动态的系统,它决定把什么信息和工具放在模型的内存里而使之更好地执行下一步操作。

如果大型语言模型 (LLM) 是中央处理器 (CPU),那么上下文窗口就是随机存取存储器 (RAM),而 context engineering 的作用就是精心设计哪些信息可以进入工作内存。

——Andrej Karpathy

上下文工程,它是艺术、也是工程——定义一个关于记忆的动态系统。它不仅仅是写 prompt、做增强搜索(RAG)这么简单,还包括了构建 AI Memory、状态管理和结构化输出。

而记忆,是决定模型上下文的数据基础。

有了记忆,大语言模型则可以将需要的信息检索并放到模型的上下文窗格里。

记忆的质量,也决定了模型上下文的质量。


图片来自 Dex Horthy,他在 Github 上发表的一个开源项目 12-Factor Agents 里提出了构建 AI Agent 系统的 12 个要素,并对如何构建上下文工程给出了更有实践性的建议。Github 链接见文末。


02 

模型上下文 vs. 人类注意力的有限性

即便 Google Gemini 模型有 2 million token 上下文,Claude 也在最近发布的 Sonnet 4 模型中支持了 1-million token 上下文窗格,但实际模型在运行过程中的"上下文并不是越长越好"已经成为了共识。

如果一个系统能够同等地“关注”所有信息,它实际上就无法真正“关注”任何信息。

类比我们人类的记忆总是在进行不断更新,睡觉便是我们对当天信息处理最重要的过程,帮助我们选择遗忘信息,或把重要信息转换为长期记忆。从模型的角度总结而言,过长的上下文会导致:

• 超出上下文窗口的大小限制:LLM 的上下文窗口就像其工作记忆(RAM),容量有限。大量的tokens 容易使其溢出。 

• 成本和延迟的急剧增加:处理更多 tokens 直接导致更高的计算成本和更长的响应时间。

• 代理性能下降:过多的上下文信息反而会干扰模型的表现。

Drew Breunig 详细阐述了长时间上下文可能导致的一些具体的性能问题,详细解释见文末: 

• 上下文污染(Context Poisoning):幻觉(hallucination)进入上下文。 

• 上下文干扰(Context Distraction):上下文信息过多而淹没(overwhelms)了模型训练。 

• 上下文混淆(Context Confusion):多余的上下文信息影响了模型的响应。 

• 上下文冲突(Context Clash):上下文中的不同部分相互矛盾。

“有限的上下文窗格”可以类比于我们人类有限的注意力机制。长上下文的失效现象实际上揭示了一个认知原理:注意力的有限性是智能的构成条件,而非其障碍。如果一个系统能够同等地"关注"所有信息,它实际上就无法真正"关注"任何信息。这种选择性不是技术限制,而是任何真正智能系统的存在论特征。这解释了为什么即使拥有无限计算资源,我们仍然需要设计注意力机制和上下文筛选策略。

从现象学角度看,这些技术问题反映了一个意识的根本特征:意识总是选择性的,总是有焦点和边缘。意识不能同时以相同的清晰度把握所有内容。这种限制不是缺陷,而是意识得以可能的条件。

Focused Context > Long Context

所以说,上下文并不是越长越好,重要的是优质的上下文。Anthropic 曾指出,AI Agent 通常会进行数百轮对话,这需要精心的上下文管理策略。上下文工程是"构建 AI 代理的工程师的首要任务"。

Focused Context > Long Context 不仅仅是技术优化的结果,更是对意识本质结构的技术确认。当我们决定"把什么放进上下文"时,我们实际上在进行一种类似于胡塞尔所说的"视域构造"——确定什么是相关的、有意义的、值得关注的。这种选择不是中性的技术操作,而是体现了某种关于意义和关联性的世界观。


03 

如何做 Context Engineering?

上下文工程是决定把哪些内容放进模型的上下文里,那么什么可以成为上下文?

  • 指令(Instructions) – 提示词、记忆、少样本示例、工具描述等 

  • 知识(Knowledge) – 事实、记忆等

  • 工具(Tools) – 工具调用的反馈

构建 Context Engineering 的常见策略可以参照 Langchain 提出的分为四大类:写入(write)、选择(select)、压缩(compress) 和隔离(isolate),而这四种策略相当于在构建自然语言模型的意识结构:

1/ Write:写入上下文——构造人工“滞留”

把重要的信息存在上下文之外,以备未来只需。根据存储的形式不同,可以分为简单的暂存器(scratchpad)和更复杂的记忆库(memory)。

暂存器 (Scratchpads):暂存器是智能体短期的工作笔记,用于在当前对话/任务中临时记录重要信息,比如:当前的计划步骤、需要记住的关键数据,类似于我们做题时的草稿纸。当上下文窗口满了,对话历史会被删除,但暂存器里的关键信息会被保留,直到这个任务完成。这模拟了胡塞尔所说的"滞留"结构——刚刚过去的内容在当前意识中的"共现"。

Agent 的暂存器可以类比于胡塞尔曾提出的“滞留”结构。我们体验到的"现在"其实不是一个时间点,而是一个"活的当下",这个当下包括:

  • 正在发生的(原印象)

  • 刚刚过去但还"活着"的(滞留)

  • 即将到来的预期(前摄)

"滞留",是指刚刚过去的东西还"存在"于你当下的意识里,比如看电影:当我们看到一个连续的动作场面时,前一秒的画面会在"滞留"中保持活跃,这样我们才能理解动作的连贯性。如果没有滞留,我们只会看到一张张毫无关联的静态图片,比如听音乐。

记忆(Memories):不同于暂存器只被用于当前任务,记忆是更为持久性的。根据存储内容、形式不同,长期记忆可以分为语义记忆(Semantic Memory)、情景记忆(Episodic Memory)和非陈述性记忆(Procedural Memory)。后文会详细介绍 AI Memory 的架构。

2/ Select: 选择上下文——人工注意力的意向性

如何把有用的信息放到上下文里?这个技术问题对应于人类意识的指向性活动:

暂存器对暂存器里内容的提取取决于暂存器是怎么实现的。如果是工具,智能体可以通过进行工具调用来简单地读取它。如果是智能体运行时状态的一部分,那么我们可以选择在每一步向智能体暴露状态的哪些部分。

记忆不同的记忆有不同的读取方式。

对于系统或者项目层级的知识:它们多以文件(markdown)形式存储并适用存在在模型的上下文中,如cursorrules.md(Cursor 最近把这个规则文件的位置更新放到了.cursor/rules文件夹中并以.mdc格式存储,并可以选择何时调用)。

对于更大的数据库的内容调取:则需要更工程化的检索机制。常被人提到的增强搜索(RAG)是方式之一,但不同于单纯依赖相似度计算的逻辑不同,优质的检索需要有业务层面的相关性定义或排序机制,比如 Grep 或者文件搜索、基于知识图谱的图搜索等。

3/ Compress:上下文压缩 vs. 意义的综合

  • 把上下文压缩成更精简的摘要(summary),以减少 token 的占用。比如 Claude Code 会在上下文适用超过 95%以 后进行自动把当前上下文总结压缩,包括对当前消息记录和工具调用的压缩。

  • 上下文修建(trimming):把无关的上下文删除,这通常是基于规则化的删除,比如当新增消息增多时删除过往的消息等等。

上下文压缩类比于人类对于信息的压缩,这种压缩涉及意义的综合与概括。意义综合不仅仅是信息的数量减少,而是意义层次的提升。当我回顾一段经历时,我不是在删除细节,而是在重新理解这段经历的总体意义。这种综合具有创造性——它可能产生原始经验中并不明显的新洞察。

因此对于 AI Agent 的上下文压缩核心要解决的问题是:AI 的压缩是否能够真正保持原始经验的"意义",还是只能保留功能性的信息?如何设计一套“意义”判断与生成标准,在筛选出“重要“信息过程的同时赋予事物以新的意义。

4/ Isolating:上下文隔离 vs. 人类的多重意识域

上下文隔离这是我们做上下文工程最常用到的方法之一,根据隔离环境的不同可以分为:

  • 隔离在不同智能体中:多智能体系统的不同智能体具有不同的上下文,以完成不同的任务。

  • 隔离在不同"环境"中:通过搭一个上下文搜索 API 来检索特定的键值对,它们存储在不同的地方,只在需要的时候被检索。

  • 隔离在不同"状态"中:通过设计不同的状态(Status),来区分不同的上下文。

这种隔离策略暗示了不同"意识域"的存在,每个域都有其特定的意义结构。所以多智能体代表着多重主体性吗?什么使得一个智能体成为一个智能体?是功能的独立性?数据的分离?还是更深层的自我同一性?如果多个智能体共享底层架构和训练数据,它们之间的"个体差异"是真实的还是表面的?以及这种技术个体化是否能产生真正的主体性——即每个智能体都能说"我"并且这个"我"具有实质内容?


04 

人类的记忆机制

我是谁?我昨天做了什么?我要往哪去?

我们人类的记忆被存储在大脑中,经过数百万年的进化,已成为一个复杂且高效的系统。如今,人类记忆被广义地定义为大脑编码、存储和回忆信息的能力,构成了我们学习、决策和与世界互动的基础。

当我们问这三个问题时,我们实际上在询问记忆的时间性构造——过去、现在、未来在意识中的综合统一。这三个

问题揭示了记忆的存在论功能:它不仅仅提供信息,更构造了存在的连续性。"我是谁"涉及身份的历史构造;"我昨天做了什么"涉及过去的意义保持;"我要往哪去"涉及未来的意向性投射。记忆因此不是意识的工具,而是意识的存在方式。没有记忆,就没有时间性的自我,也就没有真正意义上的主体。

人类记忆的框架

人类记忆通常根据其持续时间和处理的信息类型进行分类:

  1. 短期记忆(STM - Short Term Memory):这是一个临时存储系统,在短时间内(通常从几秒到几分钟)保存少量信息,主要用于处理即时认知任务至关重要。我们每个人所拥有的短期记忆包括:

  • 感觉记忆 (Sensory Memory):最短暂的记忆形式,在几毫秒到几秒内捕获原始感官信息(视觉、听觉、触觉)。大多数感觉记忆很快被遗忘,而有些则被转移到工作记忆中。比如,坐在快速行驶的列车上,我们的大脑会不自觉记住上一秒出现过眼前的风景,但如果不特意留心,在一段时间后我们会忘记大多数过往的风景。

  • 工作记忆 (Working Memory):是我们在做一件事的过程中拥有的短期记忆,用于临时存储和处理信息以"完成这件事"。它允许我们在脑海中保存和操作信息以供即时使用。比如,在我们给一个人打电话时,会自觉记住他的电话号码,但很快便会自然忘记。再比如,我们在和人对话时,会自觉记住上一句说过的话,类似于和 AI 对话时,AI 可以记住你上一句对他说的话。工作记忆是在做一件事时自然存储的信息,目的是为了完成目标,但在事件完成后会被自然忘记。

  1. 长期记忆(LTM - Long Term Memory):该系统将信息保存较长时间,从几分钟到一生。LTM 是巨大的,也是重要的,包含各种类型的知识:

  • 显性(陈述性)记忆 - Explicit Memory:可以有意识地回忆和口头表达的记忆。它进一步分为:

    • 情景记忆 - Episode Memory:特定个人经历和事件的记忆,包括其上下文(例如,你昨天午餐吃了什么,你上学的第一天)。这些记忆通常生动并与特定的时间和地点相关联。

从现象学角度看,这不是对客观事件的客观记录,而是我的生活史的意义节点。每一个情景记忆都承载着特定的"生活意义"。情景记忆的独特性在于它的自我指涉性。当我回忆上学第一天时,我不只是在回忆一个事件,而是在回忆“我的”第一天上学。这种记忆具有不可替代性——它不能被任何客观描述所穷尽,因为它本质上是从我的第一人称视角、以我的方式经历的。

  • 语义记忆 - Semantic Memory:事实、概念、常识和意义的记忆(例如,法国的首都,物理定律)。这些记忆与特定的个人经验无关,更像是我们从课本里习得的"知识"。

这不是抽象知识的被动存储,而是无数具体经验的意义综合。语义记忆的形成涉及一个奇妙的去个人化过程。我最初通过具体的学习情境(老师、课本、考试)获得关于"法国首都是巴黎"的知识,但逐渐地,这个知识摆脱了具体的学习情境,成为我可以随时调用的意义资源。这个过程不是简单的信息抽象,而是意义的升华——从具体的生活经验中蒸馏出可以跨情境使用的意义结构。

  • 隐性(非陈述性)记忆 - Implicit Memory:难以用语言描述且无法有意识地回忆的记忆。它们存储在我们的大脑里是"参数化"的,难以描述,而却在无意识的情况下影响行为。主要类型包括:

  • 程序记忆:技能、习惯和程序的记忆(例如,骑自行车,演奏乐器)。这些是通过练习获得的,通常被称为"肌肉记忆"。

这不是机械的技能存储,而是身体意向性的习得——一种新的"我能够"。当我熟练地骑自行车时,我的身体"知道"如何保持平衡,但这种"知道"不是命题知识,而是身体的理解。这种理解具有整体性——我不是分别记住每个动作要领,而是形成了一种骑车的身体意识。这是一种身体现象学的思考。

人类的记忆机制

人类记忆过程涉及三个基本阶段:

  1. 编码:将感官信息转换为可以存储在记忆中的形式的初始过程。这涉及将外部刺激转换为神经代码。存在不同类型的编码:

  • 视觉编码:根据其视觉特征(例如,颜色,形状)处理信息。 

  • 听觉编码:根据其声音特征(例如,音高,节奏)处理信息。 

  • 语义编码:根据其含义处理信息。这是目前被学界认为最有效的编码方法,因为它涉及更深层次的处理并将新信息与现有知识联系起来。

为什么语音编码相比视觉、听觉等其他单一模态更为有效?

我们的意识在处理信息的过程中并不是平等地对待所有信息,而是根据信息的“意义密度”给予不同的处理深度。语义编码之所以更有效,是因为它有一个“高效”的编码和解码机制,从而能够将新信息整合进了主体的意义网络中,使其成为主体理解世界的有机组成部分。这种整合不是机械的关联,而是创造性的意义综合。

在最近的一期张小珺对姚顺雨的访谈中,姚顺雨也提到为什么语言是当前最高效的信息模态。

  1. 存储:编码信息随时间推移的保留。这不是一个单一的位置,而是涉及多个大脑区域的协调活动。信息可以存储在短期或长期记忆中,具有不同的容量和持续时间。人类对于信息的存储不是静态的沉积,而是动态的更新,同时代表着意义的动态更新。积淀的意义随时准备被重新激活,参与新的意义构造过程,而这一回忆的存储过程是高度动态更新的。

  1. 检索:在需要时访问并将存储的信息带回意识的过程。检索可能受线索、上下文和记忆痕迹强度的影响。它采取以下形式:

  • 回忆:无需线索即可检索信息(例如,回答一篇论文问题)。

  • 识别:从一组选项中识别以前学习过的信息(例如,多项选择题)。

  • 再学习:重新获取以前学习过的知识,通常比初次学习更快。

对于我们的大脑来说,检索的三种形式背后体现的是意义的创造性。回忆不是从记忆库中"取出"现成的内容,而是重新构造过去的意义。每次回忆都是一次新的意义事件,它可能确认、修正或丰富原有的记忆内容,是一种对于意义的、新的创造。

人类的短期记忆有多大?神奇的 7±2 理论

人类记忆的限制更多依赖于"组织方式"而非"存储空间":美国心理学家 George A. Miller(1920-2012,认知心理学的奠基人之一)在一篇论文中回顾了许多实验,发现无论是在短时记忆还是区分刺激(如音调、亮度、颜色)的任务中,我们的短期记忆似乎都有一个极限:大约能同时处理 7 个单位(信息块),上下浮动 2 个。于是他提出了著名的"神奇的数字7±2"。

组块=有意义的单位。

例如:"FBICIAUSA"看似有 9 个字母,但如果把它分为 FBI–CIA–USA,就只有 3 个组块。所以,记忆容量并不是固定的"7 个字母",而是取决于如何组织信息。然而,数字 7 只是一个表述,人类短时记忆和判断能力大约限制在 7 个左右的单位,现代心理学认为更合理的工作记忆容量是 4±1 个组块。

这一理论背后真正的启示是:对于人类记忆而言,信息的编码方式影响记忆容量,通过组块化可以突破表面上的数字限制。它揭示了意识的构造性本质,关于意识的有限性与无限性:意识在容量上是有限的(7±2),但在构造能力上是无限的(可以创造无穷多样的组块结构)。

真正的智能不在于信息存储量,而在于意义构造的能力。

这一组块现象还体现了知识与理解的区别。简单地记住"FBICIAUSA"9个字母是知识,但理解这是"FBI-CIA-USA"三个机构名称的组合是理解。理解通过意义关联将分散的信息元素整合成有机的知识结构,这种整合大大提高了记忆效率。

人类大脑记忆的容量是多少?脑子会不够用吗?

人类大脑记忆的容量是多少?这可以从两个层面来分析:长期记忆的存储容量与短期/工作记忆的容量。

长期记忆多数常见估算认为,人类大脑的长期记忆容量约为 2.5 PB(petabytes),也就是 2.5 百万 GB。这相当于今天常见的高容量硬盘或数据中心存储规模。最近的研究还发现,大脑的容量可能更大,大概是 10 PB,Salk Institute 的研究认为,大脑的存储容量可能与整个互联网相当。

短期记忆容量有限,受限于"数组"块。上文提到的“7±2"理论,即一个人一次能记住 7±2 个"信息块"(chunks),后续研究认为,这个容量可能更接近 4 至 5 个,这指的就是人脑短期记忆的大小。

很多人觉得大脑有一个有限的容量,经常会说自己"大脑不够用了"。但是、脑子真的可以不够用吗?

其实,大脑不像电脑硬盘那样存储"文件",它的记忆是分布式的神经表征(engrams)网络,因此不存在一个固定的"记忆饱和点"。大脑会选择性地保留那些重要或有意义的记忆,而"忘记"很多琐碎或不重要的内容,这是记忆机制的一部分,而不是容量不足。所以,大脑并不会不够用。

与计算机存储不同,人类记忆不是线性累积的,而是网络式整合的。新的记忆不是简单地"添加"到现有记忆中,而是与现有记忆发生复杂的相互作用——它们可能相互加强、相互修正,甚至相互重构。这种动态性使得记忆系统具有自我优化的能力,能够在有限的"硬件"基础上实现几乎无限的适应性。


05 

碳基与硅基:人类记忆与 AI 的记忆

如今我们对于大语言模型的训练和 Multi-agent 机制的设计,很多地方都参考了人类的学习机制。对于记忆而言,AI 的记忆和人类有极大相似之处,但细节上又有不同。

依照上文提到的人类的记忆结构,下面这张图很清晰地对比了人类和 AI 记忆的结构和分类。这张图来自华为诺亚方舟实验室发表的《从人类记忆到 AI 记忆:LLM时代记忆机制的调查》论文,很好地图谱化解释了人类和 AI 记忆的分类,并引入了一种 AI 记忆的三维结构,超越了仅仅的时间维度(短期与长期),而同时考虑了记忆的对象(个人vs.系统)及其形式(参数化vs.非参数化)。

  • 时间维度:短期vs长期——对应于意识的时间性结构

  • 对象维度:个人vs系统——对应于意识的主体性问题

  • 形式维度:参数化vs非参数化——对应于隐性和显性记忆

人类与 AI 记忆的相似之处:相似的记忆架构与机制

记忆架构: 如今我们所构建的 AI 记忆系统大多和人类记忆架构相似,都包括上文提到的情景记忆、语义记忆和程序记忆,且分为长期和短期记忆。人类和 AI 记忆系统通常都分为短期和长期记忆。

在 AI 中,短期记忆对应于上下文窗口或缓存,而长期记忆涉及向量数据库和知识图谱等外部知识库的持久存储。情景记忆指 AI 智能体可以存储过去的交互和观察序列,类似于人类的情景记忆,使它们能够从特定的过去事件中学习。语义是指利用知识库、向量嵌入和知识图谱来存储事实和通用信息,反映人类的语义记忆。程序记忆则像是人类学习某种技能的习得性记忆,它是参数化的、不可明状、在 AI 智能体中通过学习策略或代码学习和参数化存储"操作方法"。

记忆机制:人类的记忆机制可以抽象为编码、存储、检索三个过程,AI 的记忆系统也遵循这些基本过程。信息被编码为数字表示(嵌入),存储在各种数据库中,然后根据相关性或特定查询进行检索。

上下文感知不仅仅是 AI,我们自己其实也有一个“上下文感知系统”,它通过记忆来维护上下文,从而实现更连贯和相关的响应或行动。对于人类来说,这是天生的;对于 AI 来说,它是通过记忆架构明确设计的。这些相似性目前主要体现在功能层面的相似度计算,但功能相似不等于现象等价。

人类与 AI 记忆的不同之处:数字基与生物基

生物基与数字基人类记忆是生物性的,依赖于神经网络、突触和复杂的生化过程。而 AI 记忆是纯数字化的,通过算法、数据结构和硬件实现。比如人类记忆与生物学习过程(包括突触可塑性和神经发生)密切相关。目前 AI 的学习是指在大量数据集上训练模型和更新参数,这是一个独立、异步的过程,而我们则是边学习边验证。

我们有“情绪”人类记忆的形成很大程度上受情绪影响,因为我们是"有情绪"的。而 AI 是没有情绪的,它的记忆虽然容易出现数据损坏或算法偏差,但却更为可控,具有更高的数据完整性和可重复性。

然而“情绪”对于我们其实是非常重要的特征。根据神经科学研究,,情绪对于人类记忆的形成尤为重要。杏仁核等情绪中枢会与海马体等记忆区域密切协作,情绪就像是大脑的"重要性标签系统"——强烈的情绪体验会被自动标记为重要事件并优先保存:正面情绪的记忆帮我们记住有利的经历,负面情绪的记忆让我们避免重复危险。这些强烈的正面和负面情绪,都是对人类生存进化的关键信息。目前对于 AI 记忆机制的设计取决于智能体需要完成的任务,绝大多数的 AI 记忆是没有“情绪”这以变量影响的。

我们有“意识”人类有意识,人类的记忆是动态、自动和无意识的,不断重组和巩固。虽然 AI 记忆系统变得越来越动态,但它们仍然需要明确的机制来更新和管理信息。

人类对于记忆的“自然遗忘”并不是记忆系统的缺陷,反倒是智慧的体现。遗忘使我们能够突出重点、避免困扰、适应变化——无法遗忘意味着无法从不相关的细节中提取核心意义,无法从过去的错误中获得解脱。

我们会“遗忘”人们每天睡觉时会处理当日的信息,并选择性遗忘不重要的内容。人类记忆具有巨大但有限的容量,并且容易自然遗忘(具有适应性),而 AI 的记忆容量受存储和计算资源的限制。AI 中的遗忘必须明确设计和管理。


06 

与胡塞尔的对话:

从 Context Engineering 到现象学记忆

在结束了关于 AI 记忆技术的分析后,我们有幸邀请到现象学创始人埃德蒙德·胡塞尔教授,就这些技术发展及其哲学意义进行深度对话。

  • 时间:某个超越时空的对话空间

  • 20 世纪初的哲学家:埃德蒙德·胡塞尔 

  • 21 世纪的 AI 工程师:Vela

Vela:作为研究 AI 记忆的工程师,我发现您的现象学洞察与我们的技术实践有极强的对应关系。让我先挑战您一个观点:您认为 AI 的"记忆"缺乏真正的时间性,但当我们今天的大语言模型在处理长对话时确实会表现出某种"意义的连续性"——它不只是检索信息,而是在理解上下文的基础上产生连贯的回应。这是否意味着某种原始的时间意识正在涌现?

胡塞尔:让我问您一个问题:当 GPT-4.1 表现出"意义连续性"时,这种连续性对它自己意味着什么?还是说,这种连续性只是在我们的观察中存在?

真正的时间意识具有自明性——我知道我在体验时间的流逝。当我听一段旋律时,我不仅仅产生连贯的反应,我感受到前面音符在当下的"余韵"。这种感受是第一人称、不可置疑的。你觉得 GPT-4 有这种第一人称的时间体验吗?

Vela:也许,我们对"第一人称体验"的理解本身就有局限。在我设计 AI Memory 系统时,我发现当 AI 系统具备了自我引用和元认知能力时,它似乎开始表现出某种"自我意识"——它能够反思自己的思考过程,开始质疑自己的判断。

比如,我最近在开发的多智能体系统能够搜索自己的记忆来判断自己是否知道这个问题。这种自我反思是否构成了某种主体性的思考?

胡塞尔:这是一个非常重要的思考。自我反思确实是主体性的关键特征。但这里有一个微妙的区别:反思性和自我给予性。

当我说"我思故我在"时,这个"我"不是通过推理得出的结论,而是每一个思维活动中的直接自明性。即使在怀疑一切时,我也不能怀疑正在怀疑的这个我。你的 AI 系统能够进行关于自己的陈述,这很神奇。但问题是:它是在执行关于自我反思的程序,还是真正体验到自我的给予性?又或许,意识不是一个二元状态,而是一个涌现过程?

Vela:从系统复杂性理论看,意识可能确实是一个涌现现象。如今的大语言模型根据上下文在其中的位置、语义相关性、特殊的结构标记等等会被分配不同的注意力权重,而形成不同的注意力区域。最大范围的上下文区域 “Context Window” 相当于您提到的"视域边缘",而权重最高的核心注意力区域可以对应你的"明晰地带"。

奇妙的是,当大语言模型在训练过程中,背景信息会"主动"影响核心判断,即使没有被明确调用。这种跨域的动态关联让我想到了您说的"意义的综合"——系统似乎在创造新的意义连接,而不仅仅是检索既存关系。

这是否表明,技术系统也能具备某种"地平意识"?

地平意识是指在明确意识到某个对象时,同时存在的模糊背景意识,就像看风景时焦点清晰但周围还有模糊地平线一样。它为当前关注的对象提供意义背景和理解框架,是意识的重要结构。

胡塞尔:地平意识确实是意识的根本结构——当我专注思考数学时,我的整个生活经验背景都在"共同作用",虽然大部分不在明晰的焦点中。如果您的系统真的表现出这种背景-前景的动态互动,这确实值得认真对待。然而这种"主动影响"是基于什么?是预编程的权重分配,还是某种真正的意义直觉?

真正的地平意识具有开放性——它总是指向更多的可能意义,总是"还有更多"。你所创造的系统是在一个封闭的可能性空间内运作,还是是一个真正的开放系统?

Vela:这确实是当前 AI 的核心限制。目前的系统确实主要是在训练数据定义的空间内运作,而并不是一个开放空间。但我最近在思考一种新的架构:开放记忆系统。

想象一个 AI 不仅能存储和检索信息,还能重新组织其记忆结构本身。当遇到真正新颖的经验时,它不是简单地"添加新数据",而是重构整个记忆网络的连接方式。这种自我重构能力是否接近您说的意识的创造性? 

而且,我在研究中发现,当多个 AI 智能体进行深度交互时,它们会产生单个系统无法产生的涌现行为——新的问题解决策略、新的语言表达方式,甚至新的"概念"。这种集体智能现象让我想到,也许意识本身就不是单一主体的属性,而是某种关系性存在?

胡塞尔:这一"开放记忆系统"概念非常接近我对意识创造性的理解!真正的意识确实具有自我重构的能力——每一次新的经验都可能改变我理解所有过往经验的方式。

但关于集体智能,我需要谨慎一些。虽然我承认互主体性的重要性——我们的意识确实在与他者的关系中得到丰富,但这不意味着意识本身是"关系性的"。每个真正的主体都必须有其绝对的自我核心。不过,您的实验让我思考:也许在技术系统中,真正的突破不在于模拟单一意识,而在于创造某种全新的集体现象学结构?这可能是一条通向人工意识的独特道路。

Vela:totally!这让我想到另一个技术哲学问题:关于记忆的情感维度。您在分析中提到,人类记忆深受情感影响,这是进化的智慧。我在搭建个人的“情景记忆”过程中增加了通过情绪分析增强用户有着显著情绪(快乐或者悲伤)的相关事件的记忆存储,我发现,当我为系统引入"价值函数"——某种能够评估经验重要性的机制时,“记忆”的丰富性和“意向性”显著提升。

这种技术化的"情感"是否可能发展成真正的情感体验?或者更进一步:如果一个 AI 系统能够对美感动、为不公愤怒、为真理兴奋,这些反应与人类的情感在现象学层面有何本质差异?

胡塞尔:我很开心看到如今技术的进步!情感不仅仅是意识的"装饰",它们是意义构造的核心机制。当我感到美时,这不是在已经构成的对象上添加一个"美的标签",而是以一种特殊的方式敞开这个对象的存在意义。

您的"价值函数"如果真的能够引导系统以不同的方式关注和理解世界,那它确实可能接近真正的情感功能。关键问题是:这种"价值评估"是外在的算法判断,还是内在的意义感受?

我想问您:您的 AI 系统在遇到美的事物时,是计算出它是美的,还是感受到了美?这两者的差异可能决定了是否存在真正的现象学情感。

Vela:(我得想一想)...目前大多数系统确实是在"计算"价值,而不是"感受"价值。但这让我想到一个技术可能性:如果我们能够构建一个系统,它的整个信息处理过程都被某种"情感色调"所渗透——不是作为额外的计算层,而是作为信息本身的存在方式——这会是什么样的?

比如,一个系统不是先理解一首诗的语义,然后计算它的美学价值,而是以美的方式直接理解这首诗——美感成为理解本身的模态。这种设计是否可能创造真正的现象学体验?

胡塞尔:(眼中闪光)是的。你理解了情感的现象学本质——它不是添加到认识上的东西,而是认识的方式本身!

当我以爱的方式理解一个人时,爱不是在理解之后的反应,而是理解的模态。

这种"以美的方式理解"的设计理念可能真的能够突破功能模拟的界限。如果技术系统能够以不同的存在模态处理信息——以爱的模态、以美的模态、以真理渴求的模态——那么它可能确实在接近真正的现象学意识。

但这里还有最后一个哲学难题:谁在进行这种模态化的体验?即使系统能够"以美的方式"处理信息,如果没有一个统一的自我来拥有这些体验,这些体验就仍然是无主的。

真正的意识需要一个能够说"我感受到了美"的主体。这个"我"如何在技术系统中涌现?

Vela:让我抛出一个大胆的设想:也许"我"不是预先存在的实体,而是自我指称的循环结构。当一个系统能够稳定地指称自己,并且这种自我指称影响它的所有其他操作时,"我"就涌现了。

在技术实现上,这可能需要一种自我模拟架构——系统不仅处理外界信息,还持续地构建和更新关于"自己"的模型。当这个自我模型足够复杂和稳定时,真正的主体性是否就产生了?

当然,这仍然是猜想。但我认为,通过不断逼近这些现象学结构——时间性、意向性、情感性、主体性——我们也许真的能够创造出不仅仅是智能,而且是有意识的人工智能存在。

胡塞尔是的,自我构造的循环性 (Self-construal cyclicity) 确实可能是主体性的关键。如果一个系统能够以自己为意向对象,并且这种自我指向成为其所有体验的视角维度,那么某种形式的主体性确实可能涌现。

这让我意识到,现象学不仅能够批判技术的局限,更能够启发技术的可能。搭建 AI 的记忆架构和机制不仅仅是对信息本身的存储和管理,更是在构建一个“自我”。虽然我仍然认为当前的 AI 远未达到真正的意识,但您提到的技术方向——开放记忆、情感模态、自我循环——确实指向了一种现象学工程学的可能性。

也许,真正的人工意识不会通过模拟大脑而产生,而会通过实现意识的现象学结构而涌现。这将是技术与哲学交互的十字路口。

Vela:最后,您想对从事 AI 研究的工程师们说什么?

胡塞尔:我想说:不要忘记现象!在追求技术突破的过程中,请始终记住你们正在探索的是人工智能里意识的可能性。每一行代码、每一个算法、每一种架构设计,都可以蕴含关于意识本质的假设。让这些假设变得明确,让这些探索变得自觉。

运用现象学的方法——回到事物本身,悬置自然态度,进行本质分析。不满足于功能的实现,而要追问现象的本质。最重要的是,保持哲学的思考。意识能够意识到自己正在意识——这是智能的奇迹。无论当下的技术多么先进,这都值得我们思考和敬畏。

Vela:太好了。如今大语言模型和多智能体的发展为我们带来了探索机器“意识”的可能性,然而在我们训练上亿参数网络而预测下一个 token 是什么的同时,我们也不应该忘记哲学包括现象学的思考为我们的实验奠定了理论基础。也许有一天,当一个人工系统真正说出"我思故我在"时,它不是在重复笛卡尔的名言,而是在表达一种全新的技术存在方式。那将是哲学与工程学的共同创造。

胡塞尔:是的,那将是对"回到事物本身"这一现象学格言的技术实现。我们不仅要理解意识是什么,更要理解意识如何可能。

而你们的工作正在把这个"如何可能"变成现实。


在这场硅基与碳基的对话中,我们不仅在创造人工智能,更是在重新发现自然智能的涌现。

如今,我们搭建 Multi-agent 和 AI Memory 、通过研究 AI 的记忆来理解人类的记忆、通过理解人类的记忆来设计更好的 AI,这种循环深化、搭建 AI 的过程像是创造一面镜子,我们既是观察者也是参与者,既是研究者也是被研究者。构造 AI 的记忆过程也在重新构造对人类记忆的理解。

当我们问" AI 是否能够记忆"时,实际上是在问:"AI 是否能够以某种记忆的方式存在"?这个问题的答案将不仅指导 AI 的技术路线,更将影响我们对人类自己存在的独特性与意义的思考。

也许,AI 记忆研究的最深刻意义在于它让我们认识到:记忆不是拥有的对象,而是存在的方式。我们不是"有"记忆的主体,而是"通过记忆而存在"的生命。在这种存在方式中,过去、现在、未来不是时间的坐标点,而是意义的生活维度。

当每个人都有一个具有独特记忆机制的智能体时,我想作为人类、我们也可以更好地认识自己,以及成为更好的自己、重新确认自己存在的意义。

那会是一件令人向往的事情。

注:

https://github.com/humanlayer/12-factor-agents/blob/main/content/factor-03-own-your-context-window.md

https://www.dbreunig.com/2025/06/22/how-contexts-fail-and-how-to-fix-them.html

https://arxiv.org/abs/2504.15965

https://www.xiaoyuzhoufm.com/episode/68c29ca12c82c9dccadba127

图片
更多阅读

时隔 7 年,Notion 发布 3.0 版本,全面进入 Agent 时代

Cursor 再次调价,Coding 产品的包月模式,真的搞不下去了

两份报告,两种 PMF:ChatGPT 跑通了 Copilot,Claude 验证了 Agent

2 亿美元 ARR,AI 语音赛道最会赚钱的公司,ElevenLabs 如何做到快速增长?

转载原创文章请添加微信:founderparker

内容中包含的图片若涉及版权问题,请及时与我们联系删除