2020 年最后一天,LSTM 发明人、深度学习元老 Jürgen Schmidhuber 发表博客文章,回顾了 30 年前其团队发表的关于利用人工进行规划和强化学习的研究工作。 他表示,其在 1990 年发表的文章《Making the World Differentiable: On Using Self-supervised Fully Recurrent Neural Networks for Dynamic Reinforcement Learning and Planning in Non-stationary Environment》中(以下简称 FKI-126-90 报告)介绍了一些现在广泛使用的概念,包括以循环神经网络(RNN)作为世界模型进行规划、高维奖励信号(也作为神经控制器的输入)、用于 RNN 的确定性策略梯度,以及神经网络(NN)中兼具生成式和对抗性的人工好奇心和内在激励。 FKI-126-90 报告地址:http://people.idsia.ch/~juergen/FKI-126-90ocr.pdf

在 2010 年代,随着算力成本的降低,这些概念流行开来。2015 年以来,Jürgen 等人进行了更多扩展,以解决抽象概念空间中的规划问题和如何学习思考(learning to think)。

此外,具有自适应循环世界模型的智能体甚至可以对意识(consciousness)和自我认识(self-awareness)进行简单的解释。

以下是 Jürgen Schmidhuber 的博客内容: 原文链接:http://people.idsia.ch/~juergen/world-models-planning-curiosity-fki-1990.html#PLAN4

1990 年 2 月,我发表了 FKI-126-90 报告(11 月进行了修订),介绍了后来在机器学习领域广为人知的几个概念。

这份报告描述了一个用于强化学习和规划的系统,该系统基于两种循环神经网络(RNN)——控制器和世界模型。控制器尝试在最初未知的环境中最大化累积预期奖励,世界模型则学习预测控制器动作所带来的结果。控制器可以利用世界模型通过 rollout 提前进行规划,选择能够最大化预测累积奖励的动作。在 Rich Sutton 提出 DYNA 之前,这个用于学习、规划和反馈的集成架构就已经发表了。FKI-126-90 报告还引用了利用前馈神经网络进行系统识别的工作。这一方法启发了很多后续研究,不仅是在 1990-91 年间,近几年也是如此。

1990 年的另一个创新是高维奖励信号。传统的 RL 聚焦于一维奖励信号,但人类拥有数以百万计的信息传感器来感知不同类型的痛苦与快乐。据我所知,FKI-126-90 报告是第一篇聚焦多维、有向量值的痛苦和奖励信号的 RL 论文,这些信号来自多个不同传感器,累积值基于针对所有传感器的预测得到,而不仅仅是单一的标量整体奖励。比较一下后来被称为 general value function 的函数。不同于以往的 adaptive critics,FKI-126-90 提出的信号是多维的、循环的。

此外,与传统 RL 不同的是,这些奖励信号还被用作控制器神经网络学习的信息输入,以执行能够最大化累积奖励的动作。这也与元学习有关。

这些技术能应用于现实世界吗?答案是肯定的。我之前的博士后同事 Alexander Gloye-Förster 带领柏林自由大学的 FU-Fighters 团队,拿到了 2004 年 RoboCup 机器人世界杯速度方面的冠军。帮助他们拿到冠军的机器人就是利用神经网络进行提前规划,这与 FKI-126-90 报告提出的理念一致。 2005 年, Alexander 及其团队还展示了如何利用这些概念打造自我修复机器人(self-healing robots)。他们使用连续自建模构建了第一个弹性机器人,该机器人可以在经历某种意外损伤后自动复原。

FKI-126-90 报告还陈述了 RNN 确定性策略梯度的基础。「Augmenting the Algorithm by Temporal Difference Methods」一节将基于动态规划的时间差分法与基于梯度的世界预测模型相结合,用来计算独立控制网络的权重变化。二十多年后,DeepMind 使用了类似的变体。

最后,FKI-126-90 报告还通过对抗生成神经网络引入了人工好奇心。在与世界交互的过程中,人类会学习预测自己行为的后果。同时,人类还有好奇心,会设计实验来获取新的数据,从而学到更多。为了构建有好奇心的人工智能体,FKI-126-90 报告和我的另一项研究《A Possibility for Implementing Curiosity and Boredom in Model-Building Neural Controllers》提出了一种新型具有内在动机的主动无监督或自监督学习方法。该方法基于 minimax 博弈,即其中一个神经网络最小化目标函数,而另一个神经网络最大化目标函数。现在,我把两个无监督对抗神经网络之间的对抗称为「对抗人工好奇心」(Adversarial Artificial Curiosity),以将其与 1991 年以来出现的人工好奇心和内在动机变体区分开来。 对抗人工好奇心如何工作的呢?控制器 NN(概率性地)生成可能影响环境的输出。世界模型 NN 预测环境对控制器输出的反应。世界模型利用梯度下降最小化其误差,因而成为更好的预测器。但在零和博弈中,控制器试图找到最大化世界模型误差的输出,而这些输出的损失是控制器的增益。所以,控制器被激发创造新的输出或实验,以生成世界模型觉得惊讶的数据,直到熟悉并最终厌烦这些数据。

也就是说,在 1990 年,我们已经提出了兼具生成式和对抗性的自监督神经网络(这里使用的是 2014 年后的术语),并针对静态模式和模式序列以及 RL 的通用示例生成实验输出和新的数据。事实上,流行的生成对抗网络(GNN)(2010-2014)是对抗好奇心的一种应用,其中环境根据控制器的当前输出是否在给定集合中返回 1 或者 0。此外还需注意,对抗好奇心、GAN 和对抗 PM(Predictability Minimization,1991)与其他早期的对抗机器学习设置大不相同,它们既不包含无监督 NN 也没有建模数据或使用梯度下降。

正如我自 1990 年以来频繁提到的那样,神经网络的权重应被视为其自身的程式(program)。有人认为,深度 NN 的目的是学习观测数据的有用内部表征,甚至出现了关于学习表征的国际学术会议 ICLR。但实际上,NN 学习的是根据输入数据计算此类表征的程式(映射的权重或参数)。典型 NN 的输出对自身的程式是可微的。也就是说,简单程式生成器可以计算程式空间中的方向,人们也可以在该空间中找到更好的程式。1989 年以来我的很多研究工作已经利用了这一事实。 FKI-126-90 报告中提出的控制器 / 模型(C/M)规划器专注于简单的逐毫秒规划,试图预测和规划未来的每一个小细节。甚至于今天,这仍然是很多 RL 应用中的标准方法,如围棋、国际象棋应用。然而,我 2015 年的论文《On Learning to Think: Algorithmic Information Theory for Novel Combinations of Reinforcement Learning Controllers and Recurrent Neural World Models》聚焦于抽象(例如层级)规划和推理[PLAN4-5]。基于算法信息理论的指导,我描述了基于 RNN 的 AI (RNNAI) ,RNNAI 可以在无休止的任务序列上进行训练,这些任务有些是使用者提供的,另一些是由 RNNAI 自身以一种好奇、好玩的方式发明的,以改进其基于 RNN 的世界模型。

与 FKI-126-90 报告中提出的系统不同,RNNAI [PLAN4]学习主动查询其模型,以便进行抽象推理、规划和决策,这些本质上是让 RNNAI 学会思考 [PLAN4]。[PLAN4-5] 的思想可以应用到很多场景中。在这些场景中,一个类似 RNN 的系统利用另一个系统的算法信息。这些思想还解释了像镜像神经元 [PLAN4] 这样的概念。

在最近与 David Ha(2018)[PLAN6]合著的论文中,我们提出了一个世界模型。该模型可以用一种无监督的方式进行快速训练,以学习压缩的时空表征。将从世界模型中提取的特征作为智能体的输入,我们可以训练一个非常紧凑、简单的策略,用于解决待解决的问题。我们的模型在多个环境中实现了 SOTA 结果。

最后,所有这些与「意识」和「自我意识」这两个看似难以捉摸的概念有什么关系?我在 1991 年提出的第一台深度学习机器 [UN0-UN3] 模拟了意识的多个方面。它采用无监督学习和预测代码来压缩观测序列。用「conscious chunker RNN」处理低级「subconscious automatiser RNN」出乎意料的事。chunker RNN 通过预测意外事件来学习「理解」它们。automatiserRNN 则采用 1991 年提出的神经知识蒸馏来压缩和吸收 chunker RNN 之前「有意识」的见解和行为,从而使它们成为「潜意识」。

现在让我们回顾一下上面讨论的控制器与环境交互的预测性世界模型。该模型通过预测性编码 [UN0-UN3][SNT] 对不断增长的动作和观察历史进行有效的编码,并且还会自动创建特征层次,较低层次的神经元对应简单的特征检测器(可能类似于哺乳动物大脑中发现的检测器),较高层次的神经元通常对应更抽象的特征,但必要的地方要细化。

与其他优秀的压缩器一样,世界模型将学习识别现有的内部数据结构所共有的规律,并为频繁出现的观测子序列生成原型编码或紧凑的表示或符号(不一定是离散的),以缩小整体所需的存储空间。具体来说,紧凑的自表示或自符号是数据压缩过程中自然产生的副产品,因为在智能体的所有动作和感觉输入中都有一个东西,那就是智能体本身。

为了通过预测性编码有效地编码整个数据历史,智能体将通过创建某种内部子网络来计算代表自身的神经激活模式[CATCH][FKI-126-90]。当这种表示被控制器的规划机制(FKI-126-90 报告中提到的)或更加灵活的控制器查询(2015 年的论文中提到的)所激活,智能体就会思考自身,意识到自身以及未来的可能,并试图通过与环境的互动,创造一个痛苦最少、快乐最多的未来。这就是为什么我一直声称我们三十年前就已经拥有了简单、有意识、有自我觉知和情绪的人工智能体。

内容中包含的图片若涉及版权问题,请及时与我们联系删除