作者:Sergey Levine

译者:Xiaohu Zhu

原文:https://medium.com/@sergey.levine/understanding-the-world-through-action-rl-as-a-foundation-for-scalable-self-supervised-learning-636e4e243001

机器学习系统已经有效解决了从计算机视觉到语音识别和自然语言处理等领域的若干挑战性问题乃至如何设计学习的问题 —— 然而构建出与人类推理的灵活性和通用性相匹配的系统仍然遥不可及。这就引发了关于现代机器学习中“缺失成分”可能是什么的众多讨论,人们关于该领域必须解决的大问题提出了许多假设。那这缺少的成分究竟是因果推理,归纳偏差,更好的自监督或无监督学习算法,还是其他什么东西?

这个问题很困难,任何答案都必然涉及大量猜想,但我们从人工智能最近的进展中吸取的教训可以为我们提供几个指导原则。

教训一是提供大量训练数据的大型通用模型的“不合理的”有效性。正如 Richard Sutton 在他的文中 (The Bitter Lesson) 关于“苦涩的教训”以及其他一些机器学习研究人员所强调的机器学习研究最近的一个主题是,有效利用大量算力和大量数据的方法往往优于依赖手动设计的先验和启发式方法的方法。虽然对这种趋势的原因的全面讨论超出了本文的范围,但简而言之,它们可以总结(或可能夸张地描述)如下:当我们为所用的模型设计偏见或先验时,我们正在注入我们自己不完善的关于世界是如何运作的知识,这使模型偏向于某些解而不是其他解。当模型从数据中收集这些知识时,它会得出以下结论: 比人类手动设计的更准确,因此会更好地工作。事实上,人们在如何获得熟练程度方面也观察到了类似的模式。正如 Dreyfus 讨论的(From Socrates to Expert Systems:),遵循我们可以清楚表达的规则的“基于规则”的推理倾向于只为人们提供各种技能的“新手级”表现,而“专家级”表现与人们难以清晰表达的一堆特殊情况、例外和模式相关联,但可以在情况需要的那一刻。如 Dreyfus 指出的那样,真正的人类专家很少能够阐明他们在展示他们的专业知识时实际遵循的规则,因此,正如我们必须从经验中获取专业知识一样,我们的机器也必须如此,这应该不足为奇。要做到这一点,他们需要强的、高容量的模型,这些模型施加的影响相对较少偏见,并可以处理将需要的大量经验。

更近些得到的教训二是,人工标记和监督的规模远不如无监督或自监督学习。我们已经看到无监督预训练已经成为自然语言处理的标准,或许很快就会成为其他领域的标准。从某种意义上说,这一个是上一个原则的必然结果:如果大型模型和大型数据集最有效,那么任何限制模型和数据集大小的事情最终都会成为瓶颈。人工监督可能是这样的瓶颈之一:如果所有数据都必须由人手动标记,那么可供系统学习的数据就会减少。然而,在这里我们遇到了一个难题:当前没有人工标记的学习方法经常违反教训一中概述的原则,需要相当多的人类洞察力(通常是特定领域的!)来设计自监督大型模型从未标记的数据集中获取有意义的知识的学习目标。其中包括相对自然的任务,例如语言建模,以及相对更深奥的任务,例如预测两个转换后的图像是由同一原始图像生成的,还是两个不同的(Google AI Blog 2020/04/advancing-self-supervised-and-semi.html)。后者是计算机视觉现代自监督学习中广泛使用且成功的方法。虽然这些方法在一定程度上是有效的,但我们将面临的下一个瓶颈很可能是决定如何在不需要人工标记或手动设计自监督目标的情况下训练大型模型,从而获得提取对世界有深刻而有意义的理解,可以执行具有健壮泛化的下游任务,甚至是一定程度的常识。

我会争辩说这种方法论可以从当前的算法中开发出来用于基于学习的控制(强化学习),虽然它需要大量的算法创新,使这些方法能够显着超越他们迄今为止能够解决的问题类型。这个想法的核心是这样一个概念,为了以不同的和以目标为导向的方式控制环境,自主的智能体必须发展对其环境的理解,这是因果和可泛化的,因此将解决许多缺点当前的监督模型。同时,这将需要在两个重要方面超越当前的强化学习范式。首先,强化学习算法需要用户手动指定任务目标(即奖励函数),然后学习完成该任务目标所需的行为。这当然极大地限制了他们在没有人工监督的情况下学习的能力。其次,当今常用的强化学习算法本质上不是数据驱动的,而是从在线经验中学习,虽然这些方法可以直接部署在真实世界的环境中(Google AI Blog learning.html),在线主动数据收集限制了它们在此类环境中的泛化,而且强化学习的许多案例都发生在模拟中,然而在模拟中很少有机会了解真实世界的运作方式。

通过行动学习

人工智能系统之所以有用,是因为它们提供了可用于做出决策的推理,进而影响世界的某些事物。因此,可以合理地得出结论,一个通用学习目标应该是提供动力去学习那些对以有意义的方式影响世界最有用的东西。做出创造预期结果的决策是强化学习和控制的范围。因此,我们应该考虑如何加固学习可以为训练大容量模型提供一种自动化和有原则的目标,从而赋予它们理解、推理和泛化的能力。

然而,这将需要解决两个限制:强化学习需要手动定义的奖励函数,并且它需要一种主动学习范式,这种范式很难与在大型多样数据集上进行训练的需求相协调。为了解决有目标的问题,我们可以开发算法,而不是旨在执行单个用户指定的任务,而是旨在完成他们推断出的世界上可能出现的任何结果。这些方法的潜在目标可能包括学习达到任何可行的状态,学习最大化潜在目标和结果之间的互信息,或通过原则性的内在动机目标进行学习,从而广泛覆盖可能的结果。为了解决数据问题,我们必须开发强化学习算法可以有效地利用以前收集的数据集。这些是离线强化学习算法 ,它们可以提供一条在广泛多样的数据集上训练强化学习系统的途径,其方式与监督学习大致相同,然后是一些主动的在线微调以获得最佳性能。


一个通过自主交互学习的机器人系统,来自 Khazatsky 等人。机器人从不同的先验数据中学习可能结果的模型(即,可以从当前状态产生的状态),以及实现这些结果的目标导向策略。在新环境中,机器人会对它认为可行的结果进行采样,然后尝试达到这些结果。然后机器人使用这些所有过往环境为数据来改进策略

为了提供实例化这些想法的系统的假设示例,请想象一个执行各种操作任务的机器人(例如,如上图所示)。当给出用户指定的目标时,机器人会执行该目标。然而,在它的“空闲时间”中,机器人会想象它可以产生的潜在结果,然后“练习”采取行动来产生这些结果。每一次这样的练习都会加深对世界因果结构的理解。通过使用离线强化学习,这样的系统不仅可以从它在线积极收集的经验中学习,而且可以从它遇到的所有不同情况下的所有先前记录的经验中学习。

当然,真实世界的商业部署机器人系统以这种方式与环境“玩”的概念可能看起来很牵强(它也是 当然 不是一个新想法)。这正是离线强化学习重要的原因:由于离线算法对体验的来源相对影响较小,机器人完成用户指定目标与“玩”所花费的时间可以调整到任一极端,并且即使系统将所有时间都花在执行用户指定的任务上,它仍然可以使用其所有收集的经验作为 离线 训练数据来学习以实现任何结果。这样的系统仍将与其环境“玩”,但只是在其“记忆”中进行虚拟化。

虽然机器人系统可能是最明显的实例化该设计的领域,但它不仅限于机器人技术,也不限于系统以类似于人的方式体现在世界上。任何具有明确定义的动作概念的系统都可以通过这种方式进行训练:推荐系统、自动驾驶汽车、库存管理和物流系统、 对话系统等等。在许多这些环境中,在线探索可能不可行,但通过离线强化学习以无监督的结果驱动目标进行学习仍然是可能的。如前所述,机器学习系统非常有用,因为它们能够做出智能决策。因此,任何有用的机器学习系统都位于可以进行决策的序列过程中,因此这种自监督的学习程序应该适用。

无监督和自监督强化学习

无监督或自监督强化学习方法应满足两个标准:它应该学习以有意义的方式控制世界的行为,并且它应该提供一些机制来学习控制世界尽可能多的方法。这个问题不应该与密切相关的探索问题混淆,后者也经常被表述为获得广泛覆盖的问题,但一般不关心 在没有任务目标的情况下学习以有意义的方式控制世界。也就是说,探索方法为收集数据提供了一个目标,而不是利用它。也许制定自监督强化学习目标的最直接方法是将其构建为达到目标状态的问题。然后,问题对应于训练目标条件策略。这个问题公式提供了相当大的深度,与密度估计变分推理和基于模型的强化学习(Generative Temporal Difference Learning for Infinite-Horizon Prediction)。经过训练以实现所有可能目标的策略对世界有何了解?解决此类以目标为条件的强化学习问题对应于学习一种动态模型。直观地说,能够带来任何潜在的预期结果需要深入了解行动如何在长期内影响环境。但是,与基于模型的强化学习中,模型目标与实际带来的预期结果在很大程度上脱节,而以目标为条件的强化学习目标与长期结果非常直接相关。因此,就机器学习系统的最终目标是带来预期结果而言,我们预计目标条件强化学习的目标将是一致的。然而,当前的方法并非没有限制。即使是标准的目标条件强化学习方法也可能难以使用且不稳定。但更重要的是,实现目标并不涵盖强化学习中可以指定的全部可能任务。即使智能体学会了在给定环境中完成所有可能的结果,也可能不存在一个单一的期望结果来最大化任意用户指定的奖励函数。这种以目标为条件的策略可能仍然会学习强大且广泛适用的特征,并且可以很容易地针对下游任务进行微调,但这是一个有趣的问题 未来的工作是更好地了解更通用的自监督目标是否可以解除这一限制,也许建立在一般无监督技能学习(Diversity is All You Need: Learning Skills without a Reward Function)的方法上。

离线强化学习

如前所述,即使在在线收集不可行的情况下,离线强化学习也可以应用自监督或无监督的强化学习方法,并且此类方法可以作为整合大量数据的最强大工具之一。和不同的数据集到自监督的强化学习中。这对于使其成为真正可行且通用的大规模表示学习工具至关重要。然而,离线强化学习带来了许多挑战(Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems)。其中最重要的是离线强化学习需要回答反事实问题:给定显示一个结果的数据,我们能否预测如果我们采取不同的行动会发生什么?这当然是非常具有挑战性的。 尽管如此,我们对离线强化学习的理解在过去几年取得了显着进步,性能也有了显着提高(例如,参见 IQL)。

RECON 一个自监督的真实世界机器人系统,经过训练以达到目标,执行前所未见的环境中的导航任务。

Actionable Models,一个用离线强化学习训练的自监督的真实世界机器人操纵系统,执行各种达到目标的任务。 Actionable Models 也可以作为一般的预训练,加速获取通过传统奖励方式指定的下游任务。

离线强化学习的进步有可能显着提高自监督强化学习方法的适用性。使用离线强化学习的工具,可以构建不需要任何探索的自监督强化学习方法。就像之前提到的“虚拟游戏”一样,我们可以利用离线强化学习结合目标条件策略来完全从以前收集的数据中学习。上图中显示了几个示例,说明了目标条件策略在复杂的真实世界机器人学习问题中的应用,其中机器人完全使用先前为其他应用收集的数据来学习导航不同的环境或执行广泛的操作任务。这种方法甚至可以提供强大的自监督辅助目标或下游用户指定任务的预训练(Actionable Models),类似于其他领域的无监督预训练方法(例如,BERT)。 然而,离线强化学习算法继承了标准(深度)强化学习方法的许多困难,包括对超参数的敏感性。由于我们无法进行多次在线试验来确定最佳超参数,这些困难进一步加剧。在监督学习中,我们可以通过使用验证集来处理此类问题,但在离线强化学习中缺乏相应的等价物。我们需要更稳定、更可靠的算法,以及有效的评估方法,以使这些方法真正广泛适用。

结束语

我讨论了自监督强化学习与离线强化学习相结合如何能够实现可扩展的表示学习。学习模型之所以有用,是因为它们使我们能够做出能够在世界上带来预期结果的决策。因此,以实现任何可能结果为目标的自监督训练应该为这些模型提供必要的理解 世界是如何运作的。自监督强化学习目标,例如目标条件强化学习中的目标,与模型学习密切相关,实现这些目标可能需要策略来获得对其所处环境的功能性和因果性理解。然而,为了使这些技术有用,必须能够将它们大规模应用于真实世界的数据集。离线强化学习可以扮演这个角色,因为它可以使用以前收集的大量不同的数据集。将这些部分放在一起可能会产生一类新的算法,可以通过行动了解世界,从而产生真正可扩展和自动化的方法。

这篇文章是论文Understanding the World Through Action的修改和稍微浓缩的版本,该论文将出现在 CoRL 2021 (Blue Sky Track) 中,会议将于 2021 年 11 月在英国伦敦举行。

内容中包含的图片若涉及版权问题,请及时与我们联系删除