当前,人工智能(AI)在自主学习方面存在一个根本性缺陷:缺乏像人一样学习的能力


儿童从出生起就在学习和行动,他们能灵活选择关注什么、学习什么、何时行动、何时观察,并在不同学习模式间自由切换。


相比之下,AI 模型一旦部署,它的学习模式就固定了,每一次适配,都需要一支人类工程师团队重新介入,负责准备数据、构建训练⽅案并根据性能指标进⾏调整。换句话说,AI 的自主学习能力被“外包”给了人类


最近,来自 Meta、纽约大学和加州大学伯克利分校的 Emmanuel Dupoux杨立昆(Yann LeCun)、Jitendra Malik 三位研究者,对当前 AI 范式提出了系统性批判,并给出了一套受人类和动物认知启发的学习架构。


该框架整合了基于观察的学习(System A)和基于主动行为的学习(System B),并能够根据内部生成的元控制信号在这些学习模式之间灵活切换。


此外,他们也借鉴生物体在进化与发育时间尺度上适应现实世界动态环境的方式,探讨了该框架的构建方法。



论文链接:https://arxiv.org/pdf/2603.15381



为什么AI还无法自主学习?


那么,当前的 AI 难以实现自学习,问题究竟出在哪里?研究团队在论文中点出了 4 个结构性困境


  • 高质量文本数据的供给已接近天花板;

  • 由于缺乏与环境的真实交互,模型无法学习超越人类现有知识的新内容;

  • 过度依赖语言,而忽视了空间感知、具身认知以及对物理世界的扎根推理物理世界中的空间、具身和接地(grounded)推理;

  • 模型在部署之后便停止自我改进,无法实现终身学习。


在论文中,研究团队详细探讨了限制自主学习发展的三方面技术障碍,并提出了可能的解决方案。


1.学习范式的碎片化


现有学习方法分散于各个子领域,彼此之间缺乏交互,难以整合到统一框架之中。研究团队认为,整合的起点是认识到两种基本学习模式:通过观察学习(System A)与通过行动学习(System B),系统梳理两者之间可能的交互方式。


2.学习能力的外部化


当前 AI 的学习实际上是由人类完成的。数据筛选、训练方案设计、性能监控,全部依赖人类 MLOps 流水线。为此,他们提出了元控制架构(System M),这是一个协调各学习组件间信息流的中央调度器,能够自动重现通常需要人工完成的学习与数据过滤流程。


3.缺乏规模化构建方法


研究团队表示,目前还没有一种有效手段在大规模架构上实现上述组件的联合训练。他们提出了一种受进化机制启发的双层优化方法,联合学习元控制模型与 System A、System B 的初始状态,以实现鲁棒的真实世界性能。


图|标准机器学习(左):机器本⾝并不能学习,它需要⼀条由研究⼯程师和数据科学家组成的流⽔线,负责收集、整理和处理各种类型的数据,每⼀种数据都⽤于依次训练模型的不同组件,每个组件都使⽤专⻔设计的损失函数和奖励函数。这样一来,机器就无法从自身经验中学习。自主机器学习(右):Agent 直接通过与世界的交互进行学习;数据源由 Agent 自身通过不同的学习模式(通过观察、行动学习,以及可扩展为更高阶的模式,例如通过语言互动或自我博弈进行学习)生成。团队提出的架构包含一个元控制器,使 Agent 能够在真实世界中运行的同时进行学习。(图片来自 ChatGPT)。



让机器像人一样学习


具体而言,研究团队的核心思路,是将学习拆解为两种基本模式,再由元控制系统动态调度两者之间的协作。前两者是学习模式,后者是调度两者的元控制器。


System A:观察学习


System A 对应机器学习中的自监督学习(SSL)。婴儿 6 个月时能同时辨别人类与猴子面孔,至 9 个月则专精于人类面孔;新生儿能区分多种语言的音素,至 6 至 12 个月逐渐专精于母语语音,正是这一机制的典型体现。


System A 的优势在于可扩展性强,能有效扩展处理大规模数据集,能够提取具有层次感的抽象特征,并在各类下游任务中表现出强大的迁移能力。局限在于依赖人工设计的数据分布与任务生成器,缺乏主动决定获取哪些数据的内置机制,表征与 Agent 的行动能力脱节,导致学习成果难以与现实行为场景有效对接,在区分相关性与因果关系时存在显著困难。


System B:行动学习


System B 对应强化学习(RL)与控制理论。System B 算法类包含通过交互运作的学习机制。行动是指通过一系列动作干预环境以达成特定目标,即在时间范围 T 内优化奖励 r。例如,儿童学习走路并非模仿他人步态,而是经由翻滚、爬行等非双足阶段,在反复试错中逐步发展出成熟步态。


System B 的优势在于天然适用于实时自适应行为,能够直接从稀疏或延迟结果中学习;但缺点是样本效率极低,即使学习简单任务也常需大量交互;在高维或开放式动作空间中表现欠佳;且高度依赖具有明确定义的奖励函数和可解释的动作,而这些在自然环境中往往难以实现。


两个 System 的双向支撑


从直观层面来看,当可能的动作数量有限、世界状态易于追踪时,通过行动学习相对容易。但在现实中,动作空间随自由度的增加呈指数级扩张,世界状态也几乎无穷无尽。这正是 System A 能够发挥作用的地方,通过为状态与动作提供压缩表征、构建预测世界模型,以及生成内在奖励信号,使 System B 的学习与规划变得更加可处理。


System A 为 System B 提供三类关键支撑:第一,通过自监督学习方法,将原始感知数据(像素或声波)压缩为更抽象、更紧凑的状态与动作表征,降低强化学习的搜索空间维度;第二,构建预测世界模型,捕捉环境动态,当模型以自身动作为条件时,可将 System B 从无模型强化学习转变为基于模型的规划,以规划代替盲目试错;第三,提供预测误差的内在奖励信号,引导 Agent 高效探索,并在获得足够置信后转向利用。


System B 同样反过来支撑 System A。System A 的局限在于依赖被动或静态数据,没有引导或数据筛选,它无法从无信息量、嘈杂或无关的数据流中学到有用的表征。System B 通过主动行为,可以从两个方向支持 System A 的学习:通过主动自监督学习显式优化 System A 的表征能力。例如选择不确定性高或预测误差大的数据片段,或通过干预行动揭示被动观察无法触及的因果关系;通过目标导向的自监督学习优化自身任务奖励,将数据作为副产品提供给 System A,为其表征提供现实世界的行为锚点。


图|System A 和 System B 之间的交互模式概述:System A 根据过去状态和动作向 System B 提供未来状态的预测,并提供可能动作的层级抽象,以及可⽤于探索/好奇的 SSL 损失函数。System B 通过其动作为 System A 提供丰富且与任务相关的输⼊,供其学习。


然而,两个 System 之间的协作并非是自然发生的。研究团队基于儿童“模仿学习”的例子,指出这一能力依赖于 System A 与 System B 的紧密集成与协同运作,直观呈现了两个 System 协作的复杂性。


图 | 模仿学习中的学习模式交互。(a)自我博弈(Self Play)System B 向 System A 提供动作和状态轨迹,System A 据此学习世界模型,并向 System B 提供基于预测的内在奖励信号。(b)社会观察。System B 将注意力引导到为 System A 提供复杂轨迹(用于推断潜在动作)的对等节点。(c)重定向模仿。System A 学会将外在行为和状态映射到以自我为中心的行为和状态,帮助 System B 实现目标导向的行为。(图⽚来⾃ ChatGPT)


System M:元控制


System M 作为中央调度器,并不直接处理原始感知输入或运动指令,而是监控三类低维内部元状态:预测误差、不确定性、新奇度等认知信号。并据此动态连接或断开 System A、System B 与情节记忆之间的数据通路,即时组装和拆解学习与推理流水线。


System M 的就位还让两种高阶学习模式成为可能。通过交流学习,识别社会性触发信号并根据信源可信度动态调节学习权重;通过想象学习,以记忆替代感官输入、以内部模拟替代真实动作,对应生物中的记忆回放与睡眠巩固机制。


图 | 认知架构蓝图,其中 System M 作为⾃主协调器。System M 作为中央控制平台,可⾃动执⾏数据路由和训练⽅案。


如何从零构建?


A、B、M 三系统的蓝图已然成型,但随之而来的是一个冷启动难题:System A 依赖 System B 产生的数据,System B 依赖 System A 提供的感知结构,System M 又依赖两者产生的误差信号。三者相互依赖,学习如何开始?


研究团队借鉴生物学中进化与发育尺度的区分,提出双层优化框架来破解这一困境。内层对应发育尺度:智能体在环境中交互,System A 与 B 在固定的 System M 调控下持续更新参数。外层对应进化尺度:通过评估智能体整个生命周期的适应度,优化系统的初始元参数,类比于遗传信息对神经系统初始状态的规定。


整个系统中唯一需要人工设计的,只有适应度函数与训练环境。参数初始化、数据过滤、学习课程,全部由 System M 自动提供。


图 | Evo/Devo 框架用于构建自主学习 Agent。学习过程分为两个层级:在发展层级中,学习者架构(A、B和M)通过元参数 ϕ 进行初始化。A 和 B 通过与由固定控制器M控制的环境交互来更新参数;在进化层级中,phi 参数会持续更新以优化系统生命周期内的适应度函数 L。(图片来自ChatGPT)



为什么依然很难?


研究团队表示,自 AI 诞生以来,打造一台像儿童一样学习的机器始终是这一领域的核心愿景,但实现路上仍横亘着多重现实障碍:


模拟环境。训练紧耦合的 A、B、M 三系统,需要同时满足两个要求:足够真实又足够快速。在大规模情况下,引入社会性 Agent 或实现师生交互尤其具有挑战性。


评估体系。当 Agent 趋于通用,任务特定基准便逐渐失去诊断价值。论文建议转向以人类儿童学习速度为参照的评估体系。


双层优化的可扩展性。在复杂环境中优化终身学习过程,既需要大量计算资源,又对课程设计高度敏感。


伦理问题。自主学习在灵活性、安全性与社会监管之间引入了全新的权衡。


  • 自主性越强,系统与预期目标的对齐就越难保证,这可能需要明确的审计机制与对 System M 的干预能力。

  • 依赖内部代理信号驱动的系统,可能像生物一样因信号与环境错位而产生目标偏移乃至类似成瘾或自我伤害的行为。

  • 随着 Agent 行为愈发类人,用户越容易产生情感依附与错位信任,应对这一风险需要对系统能力与局限性保持充分透明。

  • 一旦躯体信号被以类似疼痛或恐惧的方式处理,此类 Agent 的道德地位问题将真正无可回避。


这些问题远超当前 AI 技术所面临的伦理挑战,自主学习在灵活性、安全性与社会监管之间引入了全新的权衡,没有一项可以被轻易忽视。



未来与展望


A 与 B 的深度整合已在受限领域取得成功,在 MuZero、Dreamer 等系统将学习到的潜在动力学与动作规划结合,实现了超人类水平的游戏性能;视觉-语言-动作(VLA)模型也正将大规模被动预训练表征直接用于引导机器人运动执行。然而,这些系统的学习方案与运行逻辑依然由人类工程师固定设定,远不及生物体中自主、流动的协作方式。


研究团队认为,距离完全自主、广域学习系统的实现,可能还有数十年时间。自主学习不是 AI 的加分项,而是其在真实世界可靠运行的必要前提。


研究团队同时强调,构建这类系统的过程本身就具有独立的科学价值,这将为我们理解生物有机体如何在真实环境中学习与适应提供不可替代的定量模型,并推动 AI 与认知科学的双向深度融合。


内容中包含的图片若涉及版权问题,请及时与我们联系删除