近日,在以“农业无人农场”为主题的中国工程科技论坛上,中国工程院院士,欧亚科学院院士,中国人工智能学会和中国指挥与控制学会名誉理事长,中科原动力首席科学家李德毅院士应邀做题为《机器具身交互智能》的演讲。本文收录于「智源社区日报」,欢迎点击「关注」订阅

李德毅院士表示,智能机器不但把人从繁重的、重复性劳动中解脱出来,更好地符合相应工作岗位规范化要求,更重要的是可以暴力计算,人机交互协同创新。他认为,智能农机的硬核已经跃过了算力、算法和数据阶段,可交互、会学习、自成长是新一代智能机器的硬核。未来,教机器学习、作业,和机器一同学习、作业,将成为人们生活和工作的常态。机器和科学家、工程师可一同作出发明发现和创造。

图片

 

本次报告的主要内容是将“具身智能”结合农机展开,分为以下三个部分:

1、深度学习应该在和外界实时的交互和迭代中完成。

2、通过具身控制和自动调节确保机器行为与环境的协同。

3、可交互、会学习、自成长是智能农机的硬核。


以下为部分内容摘录

具身智能来源于英语Embodied Intelligence,由人工智能之父艾伦·麦席森·图灵(Alan Mathison Turing)于1948年提出,embodied即人体的,intelligence即智能,结合在一起即具身的、离不开人体的智能。同时,图灵还提出了另一个与其相对的概念Disembodied Intelligence,即体外智能、离开人体的智能,克劳德·艾尔伍德·香农(Claude Elwood Shannon)等人在1956年的达特茅斯会议上把该概念定义为人工智能(Artificial Intelligence)。

本次报告的题目——机器具身交互智能(Interactive Embodied Intelligence of Machines),即在具身智能的基础上加上交互(interactive)一词,以体现交互的重要性。交互在具身认知当中起很大的作用,具身智能是人类认知的源泉和归宿。人类认知始于行为和模仿,最早的肌体语言导致形象思维,行为是智能的外化表现,称为具身智能。肢体动作是无声的语言,舞者用行为表现艺术,机器用行为体现互动,汽车防抱死刹车系统(ABS)能够使车体动力学行为更快更准,智能灵巧手给老人端茶喂饭,表现出行为的温柔;无人驾驶的轮式机器人进入城市交通流中,如果行为动作怪异,不能识别交警手语和路人请求打车手势,人们是不会允许它上路的;车身必须体现出良好的位置感、方向感和地理认知能力,有良好的空间运动学行为,表现出的具身智能和驾驶员开车类似才能被认可,智能农机亦然。

深度学习存在先天的不可解释性,因此具有一定的局限性,目前主要体现在以下7个方面:

所有训练样本都是第三、第四等多方视角发散提供的,不具有时间序贯性,不是从机器本体的“我”出发、同一视角的主动感知;

鲜有多通道跨模态感知,尤其是视觉、语言和肢体行为的跨模态感知;

标注不可或缺且成本高,被戏说为“有多少人工,才有多少智能”;

没有体现注意力选择,没有得到当前工作记忆和长期记忆对新观察的指导;

通用性和鲁棒性差,存在数据偏见,容易受到对抗样本的欺骗;

采用超大模型、超大参数预训练大型神经网络,计算成本昂贵;

一旦部署于应用,就无法在运行时在线学习新知识。如果要求机器视觉识别新的图像对象,必须对模型修改并在新的数据上重新训练,智能难以自成长。

 

图片

图灵奖获得者杨立昆(Yann LeCun)对深度学习的未来提出了一个工作设想,如图所示:模型含配置器、感知、世界模型、成本函数、短时记忆、行为者6个模块。核心是配置器的生成和调度,感知模块接收物理世界的传感器信号,估计当前系统状态;成本模块以能量最小为目标评价机器的行为;短时记忆负责提取世界模型的记忆,同时可加强或者微修饰世界模型,行为者模块根据当前系统状态计算动作指令并执行。这个模型很好,但缺少了人对机器的控制和交互,深度学习应该在和外界实时的交互和迭代中完成。

机器具身智能中不可或缺的是多通道的跨模态交互。行为交互最能体现机器认知的试探和反馈,认知的机器要能在与环境的互动过程中学习和成长。但冯诺依曼计算机架构中只有输入/输出,且输出相比输入具有一定的时滞性,没有多通道跨模态的感知交互,这成为用计算机做智能机器的一个致命弱点,人类到了发明认知机的时候了。

控制论之父诺伯特·维纳于1948年提出《控制论:动物和机器中控制与交互的科学》,他认为:“如果我们使用一台机器来实现我们的目标,但又不能有效地干预其运作方式......那么我们最好能确定输入给机器的目标是我们真正所预期的。” 因此,麦卡锡认为:“人工智能本应该叫控制论,就是智能的自动化。” 诺伯特·维纳强调:“控制就是追求熵减,通过负反馈来确保机器具身行为智能的稳定性。”自动控制是强化学习的发源地,任何奖罚函数,可以与偏差为零的反馈控制等价。

智能时代机器的四要素说。智能时代发生了重要的变化,智能时代机器的生命观可分为认知和行为两个层面来理解。智能时代的机器里有物质、能量、结构和时间;物质和能量是物理层面的真实存在,结构和时间是认知层面的抽象思维,用结构思维物质在空间的拓扑(几何)关系,用时间思维物质的运动与变化、能量的流动与转换。结构和时间寄生在物质和能量上成为硬构体,机器里中信息是大量的软构体,体现了精神,它们寄生在硬构体或者已有的其他软构体之上,可自举和自我复用,机器的秩序显示出维持自身和产生有序事件的能力,体现出思维和行为两个方面。以自动驾驶汽车为例,其硬构体包括车的底盘、集成电路芯片、驾驶脑,软构体(软件)包括驾驶脑程序、地图、交通规则等。因为有了时间,所以有了维持秩序的能力,机器能够实现自举的自动化工作,所以思维得以进行。

具身智能在一次次图灵对话测试中迭代成长。图灵对话测试具有多样化和常态化的特点,而所有机器工作语言的原语言都是自然语言,因此图灵提出用对话来做图灵测试是非常有见解的。语言能力是机器智能的杰出表现,而特定领域机器工作语言的语音、文字、符号具有限制性,用自然语言表达的公理来约束,其在一定程度上可以被形式化,以数学为甚、物理学次之,均服从哥德尔的不完备定理。因此机器思维先要把其工作语言形式化,只有形式化才可机械化,而后自动化。一旦自动化,思维的深度就一定会超越人。

机器具身交互智能,是从学习到创造的智能。智能机器之于人类智能,就如同曾经的望远镜之于天文学家、显微镜之于生物学家。机器延伸和拓展了人的记忆智能和计算智能,不但把人从繁重的、重复性劳动中解脱出来,更好地符合相应工作岗位规范化要求,更重要的是可以暴力计算,人机交互协同创新,机器和科学家、工程师可一同作出发明、发现和创造,至于是不是机器做出的创造,人们已经不再计较。

阅读完整演讲分享,请点击这里

 

更多阅读

浅谈具身人工智能

具身智能新进展:谷歌推出Code as Policies

名词解释:具身智能(Embodied Intelligence)

A*STAR | 具身智能综述:A Survey of Embodied AI: From Simulators to Research Tasks