具身(Embodiment)指具有支持感觉和运动(sensorimotor)的物理身体。具身智能(Embodied AI)致力于发展有身体并支持物理交互的智能体,如家用服务机器人、无人车等。当下具身智能受到了工业界的广泛关注,在学术界也掀起了多学科交叉共融的研究热潮。

具身智能的应用示例

具身智能并不是一个新的概念。在阿兰·图灵(Alan Turing)发表于1950年的人工智能奠基性文章 Computing Machinery and Intelligence 中,图灵试图探讨机器是否可以思考这一问题并提出了图灵测试(Turing test)。这篇经典论文的最后两个段落里,图灵展望了人工智能未来可能的两种发展途径,一种是比较抽象的、像下棋所需的智能,一种则是拥有最好的感官、能学习甚至能说英语的智能(原文如下)。

实际上,这两种智能正代表了非具身(Disembodied)和具身智能,而两种智能形态的此消彼长也贯穿了人工智能研究这跌宕起伏的七十年。

非具身智能聚焦于智能中表征与计算的部分。早在符号主义大行其是的六七十年代,非具身智能就占据了绝对的优势。不需要物理交互、不考虑具体形态、专注抽象算法的开发这一系列有利条件使得非具身智能得以迅速地发展。今天在算力和数据的支持下,深度学习这一强有力的工具大大推进了人工智能研究,非具身智能已经如图灵所愿、近乎完美地解决了下棋、预测蛋白质结构等抽象的独立任务。互联网上充沛的图片和语义标注也使得一系列视觉问题取得了突出的成果。

然而这样的智能显然是有局限的。非具身智能没有自己的眼睛,因此只能被动地接受人类已经采集好的数据。非具身智能没有自己的四肢等执行器官,无法执行任何物理任务,也缺乏相关的任务经验。即使是可以辨识万物的视觉大模型也不知道如何倒一杯水,而缺乏身体力行的过程,使得非具身智能体永远也无法理解事物在物理交互中真实的意义。

相比而言,具身智能具有支持感觉和运动的物理身体,可以进行主动式感知,也可以执行物理任务,没有非具身智能的诸多局限性。更重要的是,具身智能强调“感知—行动回路”(perception-action loop)的重要性,即感受世界、对世界进行建模、进而采取行动、进行验证并调整模型的过程。这一过程正是“纸上得来终觉浅,绝知此事要躬行”,与我们人类的学习和认知过程一致。

图片

Perception-Action loop

在人工智能的发展中,人们也是逐渐意识到了具身的重要性。符号主义带来的人工智能寒冬中, 很多学者开始反思符号主义,MIT 的 Rodney Brooks 等人抨击了非具身智能主张的先思考再做事的发展路径。Rodney Brooks 认为智能是在与环境的交互作用中表现出来的,因此是行为产生了智能。其基本观点是让机器人到环境中去,进行物理交互,从而积累和发展初级的智能。他因此将研究的重心放在了具身智能,研究如何让机器人移动和适应环境,于 1986年诞生了第一个基于感知行为模式的轮式机器人。该机器人不需要中枢控制,实现了避让、前进和平衡等功能。Rodney Brooks 也成为了人工智能和机器人学中行为主义的代表性人物。今天对如何发展真正的智能仍然是一个开放的问题,而具身智能作为符合人类认知规律的一种发展途径也受到了广泛的讨论。

除了在路线层面的探讨外,当下具身智能的重点放在了机器人如何智能地执行物理任务上,如发展无人车、家用服务机器人等等。这些任务在现实世界中有着广泛的需求,为具身智能的发展起到了重要的助推作用。

除了工业界的大力推动,在学术上具身智能也是大放异彩。围绕着具身智能,众多学科领域各显其能:机器人学为具身智能提供了机械的身体和基本的运动控制;深度学习中的神经网络仍然是具身智能中主要的工具;基于试错的强化学习成为了具身智能中机器人技能的一种主要学习手段;计算机视觉给具身智能提供了处理视觉信号的能力;计算机图形学开发的物理仿真环境给具身智能提供了真实物理世界的替代,大大加快了学习的速度并降低了成本;自然语言给具身智能带来了与人类交流、从自然文本中学习的可能;认知科学进一步帮助具身智能体理解人类、构建认知和价值。

应当说,具身智能仍然面临不少的挑战。在现实世界中进行学习有着更高的代价,也同时面临了机械结构和安全性等多种限制。但是相信众多学科交叉迸发出无限的学术活力和执行物理任务的巨大需求将共同推动具身智能,期待具身智能的明天!