“具身智能”结合农机｜李德毅院士《机器具身交互智能》主题分享

近日，在以“农业无人农场”为主题的中国工程科技论坛上，中国工程院院士，欧亚科学院院士，中国人工智能学会和中国指挥与控制学会名誉理事长，中科原动力首席科学家李德毅院士应邀做题为《机器具身交互智能》的演讲。本文收录于「智源社区日报」，欢迎点击「关注」订阅

李德毅院士表示，智能机器不但把人从繁重的、重复性劳动中解脱出来，更好地符合相应工作岗位规范化要求，更重要的是可以暴力计算，人机交互协同创新。他认为，智能农机的硬核已经跃过了算力、算法和数据阶段，可交互、会学习、自成长是新一代智能机器的硬核。未来，教机器学习、作业，和机器一同学习、作业，将成为人们生活和工作的常态。机器和科学家、工程师可一同作出发明发现和创造。

本次报告的主要内容是将“具身智能”结合农机展开，分为以下三个部分：

1、深度学习应该在和外界实时的交互和迭代中完成。

2、通过具身控制和自动调节确保机器行为与环境的协同。

3、可交互、会学习、自成长是智能农机的硬核。

以下为部分内容摘录

具身智能来源于英语Embodied Intelligence，由人工智能之父艾伦·麦席森·图灵（Alan Mathison Turing）于1948年提出，embodied即人体的，intelligence即智能，结合在一起即具身的、离不开人体的智能。同时，图灵还提出了另一个与其相对的概念Disembodied Intelligence，即体外智能、离开人体的智能，克劳德·艾尔伍德·香农（Claude Elwood Shannon）等人在1956年的达特茅斯会议上把该概念定义为人工智能（Artificial Intelligence）。

本次报告的题目——机器具身交互智能（Interactive Embodied Intelligence of Machines），即在具身智能的基础上加上交互（interactive）一词，以体现交互的重要性。交互在具身认知当中起很大的作用，具身智能是人类认知的源泉和归宿。人类认知始于行为和模仿，最早的肌体语言导致形象思维，行为是智能的外化表现，称为具身智能。肢体动作是无声的语言，舞者用行为表现艺术，机器用行为体现互动，汽车防抱死刹车系统（ABS）能够使车体动力学行为更快更准，智能灵巧手给老人端茶喂饭，表现出行为的温柔；无人驾驶的轮式机器人进入城市交通流中，如果行为动作怪异，不能识别交警手语和路人请求打车手势，人们是不会允许它上路的；车身必须体现出良好的位置感、方向感和地理认知能力，有良好的空间运动学行为，表现出的具身智能和驾驶员开车类似才能被认可，智能农机亦然。

深度学习存在先天的不可解释性，因此具有一定的局限性，目前主要体现在以下7个方面：

所有训练样本都是第三、第四等多方视角发散提供的，不具有时间序贯性，不是从机器本体的“我”出发、同一视角的主动感知；

鲜有多通道跨模态感知，尤其是视觉、语言和肢体行为的跨模态感知；

标注不可或缺且成本高，被戏说为“有多少人工，才有多少智能”；

没有体现注意力选择，没有得到当前工作记忆和长期记忆对新观察的指导；

通用性和鲁棒性差，存在数据偏见，容易受到对抗样本的欺骗；

采用超大模型、超大参数预训练大型神经网络，计算成本昂贵；

一旦部署于应用，就无法在运行时在线学习新知识。如果要求机器视觉识别新的图像对象，必须对模型修改并在新的数据上重新训练，智能难以自成长。

图灵奖获得者杨立昆（Yann LeCun）对深度学习的未来提出了一个工作设想，如图所示：模型含配置器、感知、世界模型、成本函数、短时记忆、行为者6个模块。核心是配置器的生成和调度，感知模块接收物理世界的传感器信号，估计当前系统状态；成本模块以能量最小为目标评价机器的行为；短时记忆负责提取世界模型的记忆，同时可加强或者微修饰世界模型，行为者模块根据当前系统状态计算动作指令并执行。这个模型很好，但缺少了人对机器的控制和交互，深度学习应该在和外界实时的交互和迭代中完成。

机器具身智能中不可或缺的是多通道的跨模态交互。行为交互最能体现机器认知的试探和反馈，认知的机器要能在与环境的互动过程中学习和成长。但冯诺依曼计算机架构中只有输入/输出，且输出相比输入具有一定的时滞性，没有多通道跨模态的感知交互，这成为用计算机做智能机器的一个致命弱点，人类到了发明认知机的时候了。

控制论之父诺伯特·维纳于1948年提出《控制论：动物和机器中控制与交互的科学》，他认为：“如果我们使用一台机器来实现我们的目标，但又不能有效地干预其运作方式......那么我们最好能确定输入给机器的目标是我们真正所预期的。” 因此，麦卡锡认为：“人工智能本应该叫控制论，就是智能的自动化。” 诺伯特·维纳强调：“控制就是追求熵减，通过负反馈来确保机器具身行为智能的稳定性。”自动控制是强化学习的发源地，任何奖罚函数，可以与偏差为零的反馈控制等价。

智能时代机器的四要素说。智能时代发生了重要的变化，智能时代机器的生命观可分为认知和行为两个层面来理解。智能时代的机器里有物质、能量、结构和时间；物质和能量是物理层面的真实存在，结构和时间是认知层面的抽象思维，用结构思维物质在空间的拓扑（几何）关系，用时间思维物质的运动与变化、能量的流动与转换。结构和时间寄生在物质和能量上成为硬构体，机器里中信息是大量的软构体，体现了精神，它们寄生在硬构体或者已有的其他软构体之上，可自举和自我复用，机器的秩序显示出维持自身和产生有序事件的能力，体现出思维和行为两个方面。以自动驾驶汽车为例，其硬构体包括车的底盘、集成电路芯片、驾驶脑，软构体（软件）包括驾驶脑程序、地图、交通规则等。因为有了时间，所以有了维持秩序的能力，机器能够实现自举的自动化工作，所以思维得以进行。

具身智能在一次次图灵对话测试中迭代成长。图灵对话测试具有多样化和常态化的特点，而所有机器工作语言的原语言都是自然语言，因此图灵提出用对话来做图灵测试是非常有见解的。语言能力是机器智能的杰出表现，而特定领域机器工作语言的语音、文字、符号具有限制性，用自然语言表达的公理来约束，其在一定程度上可以被形式化，以数学为甚、物理学次之，均服从哥德尔的不完备定理。因此机器思维先要把其工作语言形式化，只有形式化才可机械化，而后自动化。一旦自动化，思维的深度就一定会超越人。

机器具身交互智能，是从学习到创造的智能。智能机器之于人类智能，就如同曾经的望远镜之于天文学家、显微镜之于生物学家。机器延伸和拓展了人的记忆智能和计算智能，不但把人从繁重的、重复性劳动中解脱出来，更好地符合相应工作岗位规范化要求，更重要的是可以暴力计算，人机交互协同创新，机器和科学家、工程师可一同作出发明、发现和创造，至于是不是机器做出的创造，人们已经不再计较。

阅读完整演讲分享，请点击这里

更多阅读

浅谈具身人工智能

具身智能新进展：谷歌推出Code as Policies

名词解释：具身智能（Embodied Intelligence）

A*STAR | 具身智能综述：A Survey of Embodied AI: From Simulators to Research Tasks

内容中包含的图片若涉及版权问题，请及时与我们联系删除

“具身智能”结合农机｜李德毅院士《机器具身交互智能》主题分享

评论