Google RT-2、Figure 01 机器人、特斯拉 Optimus 等的新演示让「具身智能」这一概念成为了机器人和大模型领域的热门话题。

何谓具身智能,简单说来就是具备人工智能的机器人。传统机器人在发展遇到瓶颈后,因为大模型,有了新的可能性。业界不少人认为甚至通用机器人可能会成为未来的主流。

  • 在当下阶段,具身智能的技术难题是什么?会和大模型走同样的迭代路线吗?
  • 具身智能也会有自己的 Scaling Law 吗?
  • 具身智能商业化前景有多大?五年内会迎来具身智能的 1000 万出货量吗?

4 月 11 日,在 Founder Park 的直播间,极客公园创始人&总裁 张鹏,和三位具身智能领域的专家、创业者,一起聊了聊具身智能的技术现状、数据难题和商业前景。

参与嘉宾:
高继扬 星海图 CEO
赵行 清华大学交叉信息研究院助理教授 & 清华大学 MARS Lab 负责人

许华哲 清华大学交叉信息研究院助理教授 & 清华大学具身智能实验室负责人

文章基于直播整理,Founder Park 略有增删。

年初正式亮相的 Apple Vision Pro,发售半小时线下售罄,线上火爆至今。

畅销的同时,Vision Pro 划时代的体验掀起了新一轮 XR 创业热潮。

甚至不少人认为 XR 创业的最大机会来了。

Founder Park 此次邀请到三位 XR 领域的创业、投资嘉宾,与大家分享他们在 Vision Pro 发售后的创业经验和行业思考。

Reborn 创始人 Luffy 会分享空间计算领域如何与生成式 AI 结合并落地;

无派科技创始人孙宏量会聊聊团队如何在两个月内推出两款 Vision Pro Apps,并分享他对 XR 开发与「传统」平面开发的异同;

同歌创投执行董事 Kara 在使用 Vision Pro 后体验了 150 款 Apps,有着多年 XR 投资经验的她会分享她看到的 Vision Pro 应用的创业机会。


01

大模型让具身智能成为可能,

人形不是必须

张鹏:我们先聊聊具身智能这个概念,两位先从定义出发,跟我们讲讲这事究竟是怎样一个事儿。

高继扬:具身就是具有身体的智能体,英文是 Embodied AI,就是说给智能体赋予一个身体,这就是具身智能。

具身智能的未来是什么呢?我们用四个字去概括,就是一脑多形。一个智能大脑配合多种不同构型的身体完成物理世界的不同任务。一脑多形不仅仅是我们对于未来具身智能技术发展的判断,也是对于未来具身智能产品形态、商业落地的一个基本判断。

许华哲:具身智能我倾向于去从顺着和逆着两种方向来解释。具身这个概念最早来自于具身认知,在心理学上有这样一个概念,就是说我们对这个世界的认知如果只靠书本,只靠观察是很难对世界有一个充分认知的,那我们必须要跟这个世界交互,才能对这个世界有一个好的认知。

具身智能其实是说,我现在有了身体,如何给这个身体赋予智能,让它解决现实中的事情,而在交互的过程中又让智能进一步发展。

一个很经典的例子,我们把小猫绑起来让它天天看别的小猫在电视里面走来走去,然后把它放下来,你发现这只小猫是不会走路的,尽管除了身体以外,别的都跟真正的小猫没什么差别。这个实验告诉我们智能这件事跟具身是一个强耦合、强绑定的关系。

研究具身智能,主要是研究怎么样用智能使得我们自身可以做更多事情,然后靠具身使智能进一步发展。

张鹏:古人也说读万卷书,行万里路,这俩东西得合在一起。本质上讲就是你光看信息没有 grounding 是不行的,没有实践它就没法在真实世界里边落下来。

怎么看双足人形机器人,这个背后有什么技术的变化促进了它突然变得这么热?

赵行:我先从技术方向上掰扯掰扯。我们组也做一些足式机器人的移动,过去两年我们看到用强化学习的方法训练足式机器人的地形通过能力,已经比传统的基于 MPC(模型预测控制)的方案能力更强了。如果纯从技术角度来说的话,我觉得是这个原因。

但是,机器人的进展不仅仅在于双足或者四足的进展,更多是通用具身智能的希望。大语言模型在过去两年的进展,让我们看到自然语言中通用智能是可以实现的。计算机视觉领域在 3D 理解和开放语义识别也获得了巨大进展。在自然语言和计算机视觉的进展以后,通用具身智能是我们大家都在期待的突破。

张鹏:再一个就是通用机器人能力的发展,正好这个问题我觉得转到了刚才说的一个概念:一脑多形。就是看起来并不是非得要人形双足,这一波具身智能的机会,听起来机会在于通用机器人这个方向,你会怎么拆解这个概念?

高继扬通用在这里表达的是单一产品的附加值变高了,而且部署的边际成本大大降低。这完全针对的就是传统机器人的两大痛点。

回到通用的目标上来说,具身智能的未来发展可以从两点去看,第一还是要保证它的通用性,没有通用性,商业化是没有可能性的。第二就是效率,通用性跟执行效率组成了产品的性价比。

人形机器人里面有很多结构有通用性上的优势,因为这个世界就是由我们人创造的,生产的。但同时我们也要关注到人的很多构型里面,它也有效率的劣势。

张鹏:优势和劣势具体有哪些?

高继扬:我们再从一个更本质的点去尝试思考一下,人为什么进化成今天这个样子,这是灵长类基因在大自然界强化学习的结果,经过了无数次的筛选进化,然后达到最适合原始大自然世界的样子。

但是我们现在面临的是一个经过人类改造的世界,机器人双足支撑的稳定性,面对不同路况移动选择的处理效率上,都是要画一个问号的。

张鹏:就是说具身智能如果是通用的机会,但在通用的层面下,我们又不能只拿人类作为通用的极致状态。

另外我觉得可能还有一个维度,就为什么我们是两条腿这个事,没准也跟这个人要控制多少个肢体,跟总功耗相关。

还想问一下,这一波具身智能的讨论,控制层面有什么进步?技术上有什么值得关注的变化吗?

许华哲:人类从十几根手指进化到今天的十根,从四条腿进化到两条腿,至少说明了人类这个构型未必就是最完美的通用化构型。但是肯定是从人类的随机种子开始演示强化学习出来的一种比较优的构型。

言归正传,回到控制上面。我觉得最近主要还是基于学习的控制算法有了一些进展,比如说模仿学习,之前的模仿学习只能解决一些限定性问题,但最近模仿学习可以跟很火的 Transformer 去结合。结合以后,我们发现模仿学习的表达能力上来了,比传统的用一个多层感知机的神经网络去直接预测一个动作,能表达,能完成的任务又复杂很多。

模仿学习本质是监督学习,大模型就是数据驱动的一种监督学习,只要你数据足够多了,那大模型就 work 了,我们很自然地类比到机器人,是不是模仿学习可以重现大模型的成功?当我们有很多数据的时候,随着模仿学习表达能力越来越强,能吃的数据越来越多,是不是它也能产生巨大的成功?这是我们基于学习的控制上的进展。

另一个就是赵行老师刚才提到的强化学习,不停地去奖励这个机器,让它越来越懂得怎么样做正确的事。这最开始只能走格子,迷宫那种小玩具,但现在它可以真正控制一个机器人做很复杂的事情,包括翻跟头,跑酷等等。这样的强化学习手段给我们了信心,就是基于学习的控制器是可以落地的,可以商用的,可以放在最先进的机器人上给我们带来真正价值的。我想这也是这波具身智能,从控制的角度来说一个很本质的创新。


02

具身智能巨头们都在做什么?

张鹏:放眼全球,在具身智能领域里一些巨头公司过去一段时间里有很多的进展,Google、OpenAI、Tesla、英伟达,这几家有什么路径的不同吗?他们的进展、哪些东西是在哪个方面做得最棒的?

高继扬:我说一下 Tesla 和 Google,这两个最有代表性。Tesla 掀起了人形机器人这一波浪潮,但 Tesla 可能跟其他的人形机器人都有一个很大的不同点,就是它在自动驾驶,在智能汽车上面迭代出了相对完整的智能系统,然后去做人形机器人。也就是说它其实已经有了一个很不错的大脑了,这个大脑能够很好地感知它的这套 FSD,同时还能做很不错的移动控制,当然它缺乏下肢 locomotion 和上肢的 manipulation 能力,这是它要拓展的部分。

Google,最近大家关注最多的可能是 RT(Robotic Transformer)系列的工作,我觉得它的切入点更多是从大脑切入,类似于一脑多形。这两类企业都蛮有意思。

张鹏:对,这两个路径不完全一样,但是都有各自的优势。OpenAI 最近也在这方面有所进展,包括英伟达在 GTC 里边也把具身智能当成了非常重要的一条线。你们怎么看这两家?他们的路径有什么不一样吗?

许华哲:这两家都是非常了不起的公司了,OpenAI 做了一些很神奇的事情。首先他们从策略上面投资了 1X 这家公司,然后跟 Figure 公司合作。

不过也能看得出来 OpenAI 对机器人非常有企图心,或者说 OpenAI 最初就是从机器人起的家,从强化学习打 Dota,机械手转魔方,只不过那个时候 AI 还不够成熟,他们想率先找到 Scaling Law,所以选择了数据最多的赛道,就是语言。那现在语言赛道已经做到 No.1 了,那他们要找影响力最大的 Scaling Law 赛道,把它规模化,很自然选择了机器人。

Figure 的 Demo,看技术没有那么难,去问大模型一些问题,然后做一些视频理解让它输出,当然它做得很丝滑、很优质。但是给我们未来感的冲击是特别大的,让我们看到具身智能未来真的能成为我们的家庭保姆、家庭助理,有可能改变我们的社会形态。所以 OpenAI 更像是让我们见未来这种感觉。

英伟达的话,其实更像是一个船底座,他并没有说要做出一个最好的未来。是联合一些公司搞了一个 Project GR00T 计划。这个就像是一棵树的根,所有人形智能都是根上面的须子,他们希望通过这些根给具身智能汲取养料,然后集中到 Groot 那里提供智力,提供算力底座,提供通用大脑,就像我们今天聊的具身智能和一脑多形一样去把底盘做好。

总之我觉得 OpenAI 还是偏向于冲上限的感觉,而老黄就像他们做英伟达显卡那样,想要做一个最扎实、最了不起的盘子那种感觉。

张鹏:刚才我们分析了四大家的特点,如果我们从技术路线上去分析,它们分别在技术路线上有什么不同?从它们身上能看到未来的哪些确定性或者不确定性?

赵行:大概盘点一下各家的技术路线。

首先是 Google,我们并没有看到 Google 非常确定性的一款具身智能产品,它想基于大模型,来做一些像 RT1、RT2 相关的探索。Google 的风格是进行基础探索,我们看到最近几年的新技术究其根本很多都是从 Google 出来的,像 Transformer,NERF 等等,所以我觉得 Google 更多是一个百花齐放的探索型公司。但是当它百花齐放的时候,什么时候能够收敛,什么时候能够聚焦,这是对 Google 的一大挑战。

OpenAI 更多是想要把技术产业化在中间转化,挑出最有希望产业化的前沿技术并且将其规模化。它尝试了很多方向,包括机器人、语言模型、多模态,到最近的 Sora,它挑选出了最有希望的这些技术点,然后将其规模化 Scaling Up,这是它的特点。

英伟达希望通过它的算力优势来构建模型训练以及仿真平台,给大家提供这样一个玩耍的基座,让大家去发挥想象力去创新。

再说到 Tesla,这家是我自己感触最深的公司,如果说今天有哪一家公司把具身智能做成了,我的答案会是 Tesla。当然不是它的人形机器人,而是说它的自动驾驶。什么叫做成了呢?我们能很明确地看到它在往通用智能驾驶,往我们期待的 L3、 L4 方向进发了。

Tesla 是怎么做到的呢?我觉得有两个重要的时间节点,第一个节点是感知的通用化。对于具身智能来说,什么是通用感知?有两个方面,一方面叫语义感知,另外一方面叫做几何感知。我们这双眼睛在看世界的时候,我知道这个东西是什么,它的形状是什么,这样子自动驾驶才能够去绕开它,操作的时候去移动它。两年前,Tesla 把 Occupancy Network 应用到自动驾驶上,让我们看到了通用感知的希望。

另外最近的 FSD 12 也有一些进展,很多乘客说坐上 FSD 12 以后觉得特别顺滑,驾驶感觉非常像人,这是为什么?因为它把移动的规划控制问题神经网络化了,它就可以从人的驾驶行为去学习。

把这两个节点串接起来,我觉得已经能看到 L4 的曙光了。Tesla 在这个过程中并不是靠纯烧钱实现的,它通过卖新能源车收集更多数据,构建超强的算力中心训练模型,然后反过来给每一辆车主使用,通过这样不烧钱的方式,把一个具身智能道路上相对简单的避障问题解决了。


03

具身智能创业公司的机会在哪里?

张鹏:作为已经投身到具身智能赛道的创业者,想问下继扬,创业公司怎么定义自己的空间和价值?怎么定义这条赛道上给创业公司留的机会?

高继扬:核心的一个点就是,做具身智能我们往前发展的核心路径应该是什么。这个问题清楚了,很多问题都有答案。具身智能的核心在于数据,对于公司来说,核心壁垒在于持续从物理世界获取数据并且高效使用的能力。沿着这个往前说,任何一个 AI 产品,背后都是四个要素的循环:商业价值、数据规模和质量、智能程度、产品力。因为有产品力,所以能产生商业价值,因为能产生商业价值,所以数据规模和质量变得更大,数据规模变得更大了之后,智能程度变得更高,然后推升产品力进一步提高。

这四个要素里的关键点是什么?有两个成本必须要控制好,第一个是数据的获取成本,第二个就是失效成本,基本上过去所有成功的 AI 公司,这两个成本很低。

AI 的特性一定不是工业自动化,一定有失效的时候,那它失效了之后带来的麻烦不能太大。ChatGPT 如果失效了,带给我们的损失是什么?大概浪费了我 30 秒的时间,这就是它的失效成本。我们再去看自动驾驶 L4 的失效成本,如果它失效了,撞一下少则几万人民币,多则几十万人民币。这两个成本截然不同。要能够算得过来账,那两次失效之间的收益足够大,产品能够产生正向价值的阈值是不一样的。这就是为什么我们特别关注 AI 产品的失效成本。Sora 的失效成本也很低,生成错了没关系,再渲染一个。但凡涉及到物理世界的,失效成本一定都会变得更高,所以我们特别关注成本。

第二个就是数据的获取成本。获取成本如果高,智能总成本就高。GPT 从互联网数据出发,而且在整个数据闭环的过程里面是和人对话,这种数据获取成本也很低。Robotaxi 的数据获取成本就很高,靠开采集车去采数据。

核心路径以及这两个成本如果想清楚了,下一个问题就是要在新技术带来的供需关系里面去抓住一些机会,把商业价值提供出来,然后构建四要素循环,这个就是创业公司前进的道路。物理世界的机会我觉得是很多的。我们不用去创造 PMF,因为遍地都是,每一个蓝领工都是一个 PMF。关键看我们能做哪个,能够在哪一个岗位上把通用性的价值提供出来,把效率做上去,把账算过来,那我就能够运转四要素循环。

机会就在那里,我们要看机会背后的变量是什么,这个变量来自于技术,机会背后掌握变量的人,他们就是最有可能把这事做成的那批人,这就是我们创业公司的机会。

张鹏:我再问问继扬,你是不是要做端到端。就是要搞的是从脑到形体到最后的产品交付,还是说你就只搞大脑?

高继扬:这里边有个问题特别关键,就是具身智能公司的核心壁垒在哪里?具身智能公司的核心壁垒就是从物理世界持续获取数据且高效使用数据的能力。这也是和大语言模型公司有点不一样的地方,这些公司可能百分之八九十的数据都是开源数据,但是对于具身智能公司来说,未来大量的数据都是闭源的,都得自己搞。数据的自主权,是构建数据飞轮的一个重要条件。

从这里出发,我们一脑多形这个发展阶段,一定要做设计,做硬件,做产品,还要做线下渠道和运营能力。相较来说,大语言模型是一个线上的问题,具身智能是物理世界的问题,所以回到说我们具身智能公司到底在做什么,我们做的就是持续获取数据,而且高效使用数据的能力。

围绕这个能力的构建我们拆解开来,首先要有 AI 的能力,同时我们要有「形」的能力,就是产品硬件,我们还要有把这个脑和形构成的产品在物理世界铺出去的能力。这三个构成了具身智能公司的核心能力。

我们怎么对待形?这个事第一个发展阶段就是自己做形,随着我们的形越来越多,随着我们在物理世界的终端越来越多,我们的数据越来越多,我们的智能程度越来越高,这个时候脑会发生变化,脑的部署边际成本会越来越低。到那个时候才是把具身智能大脑作为一个开放平台开放出来,谁都可以用一下,但是没有前面的累积,公司是到不了这个阶段的。

张鹏:你刚才说本质上是一颗大脑,通过不同形体分布式成长。这个可能是具身智能的一种有效生产路径。

这对于创业公司确实提出了一个更复杂的挑战,不光是把技术做到,最终还得卖出去,这个价值还得正循环,这确实是创业者才有的觉悟。

是不是未来在具身智能领域里边,真正能够创造价值的公司就是要端到端,既要有脑,又要有 body,然后最终还要落到场景里边,变成一个可以 work 的商业闭环。以后还会有那种专门造机器人身体的公司吗?还是说未来就是灵魂和肉体就得要融合?

高继扬:我觉得还是回到逻辑的起点,就是具身智能需要掌握数据,为了掌握数据需要有数据的自主权,能够自主完成物理世界的终端部署和运营,为了做到这一点,我们一定是从场景需求出发去看整机设计,然后整机设计结合系统,结合算法形成一个能够解决问题的产品,然后部署到场景当中去,在这个链条里面具身智能公司应该控制的是什么?就是算法部分,整机的设计部分,元场景当中的部署,这些是我们要控制住的。这几环我们认为在第一个大阶段,一个成功的具身智能公司能够真正把产品部署出去的应该是都要掌握的。

随着技术的发展,整机从设计到靠谱量产又可以分两环,现在机器人行业也是这样,大量的机器人公司只是做研发,硬件的生产制造、供应链管理,这不是研发的一部分,有专门的代工厂。未来在具身智能,人形机器人里其实也会存在这样分工,我觉得演进过程大概会是这个样子。


04

具身智能的 Scaling Law 难题

张鹏:大模型领域里大家开始总结说,大模型相关的技术公司里边得有人做过搜索,有比较强的工程能力,还得有算法很强的人。这样的人组合在一起才能做出事。那我就很好奇,从具身智能技术栈上去看,要想能在技术上更好,它需要哪些技术栈?需要哪些能力?

许华哲要把具身智能做好,我们需要人工智能里面熟悉视觉,语言和机器人方面的人才。我觉得还需要有一些既懂 AI 又懂机器人的人,玩 AI 的经常是纯软件,但是碰到物理世界的真机就玩不转了。而搞机器人的一般机器修的特别好,特别快,但是你让他们弄个神经网络的分类器,一周可能也搞不出来。所以二合一的人才特别重要。

赵行:我觉得许老师说的挺全面。我补充一个自己感受比较深刻的方面,就是怎么搞数据,我们先不说数据的来源是什么,先说有了数据以后怎么用,上一代 AI 有数据以后就会找人进行标注。但是我们现在遇到的问题是通用智能,这个世界上的物体成千上万,机器人和人也有成百上千种的交互方式。这么多类型的数据,我该怎么样去标注它?我们已经隐约看到了范式,在线模型训练其实只是冰山上的一角,下面的就是到底该怎么样去构建数据集的标注。

这个自动标注系统我们看到的理想情况是 99% 是自动的,1% 是人工介入的,它像一个飞轮一样,99% 的时间它在自己转动,出现了一些小 bug 就找数据修理工修一修,让它继续转下去。通过这种自动数据标注的方法,我们能够把海量的数据自动给标注好。

张鹏:这就引发了一个有意思的点,我们看到大模型在开发过程会自我超越,不断前进。机器人领域是否也会遇到相似的问题?因为这次我们看到大语言模型的出现,跟机器人相关领域的交集就带来了很多变化,是不是未来也会出现这种情况?

赵行:其实半监督学习的能力上限很低,现在领域之间、学科之间的交叉变得越来越频繁,以后就可以借其他模型的力量,提升我家模型的能力。

张鹏:同意,数据维度的能力会逐渐成为具身智能发展的非常重要的因素。

我们刚才聊到了具身智能公司的考验,还有一点,最近大家在说会不会有一个 Foundation Model,一个世界模型最后变成了一个智能操作系统这样的可能性,我不知道你们各位怎么看?

许华哲:机器人的 Foundation Model 其实是一个颇具争议开放性的话题,它肯定是一个非常值得探索的道路。但是目前来看,有几个本质的困难,在机器人这个领域,数据到底怎么样融合在一起是一个非常难的问题。比如说自然语言,无论我说的话,鹏总说的话,或者是在座各位老师说的话,其实都是一样的,我们说的都是中国话,都可以训在同一个模型里。

但是机器人里面有一个特点,数据是异构的,机器人和机器人之间是不同的,每个关节的奠基性能是不同的,机器人长的样子是不同的,这样的异构数据如何能很好地融合在一个模型里,让它训起来,这件事情非常有挑战,一旦这件事情有了突破,那么我觉得机器人的 Foundation Model 应该就不远了。

张鹏:大家都会聊到数据相关的问题,如果这个问题不解决,它就不存在 Scaling Law。所以看起来具身智能这事还真不能上来就看机器人,数据现在是个比机器人还大的问题,对吧?

赵行:我觉得做一个 Foundation Model,端到端的解决一个具体问题,这个是应该是我们的终局。但是许老师提到,Foundation Model 里面涉及到的视觉、语言、动作这么几个模态的组合数据我们没有。

有一种思路是做模块化切分,比如说感知和语言、视觉和语言,我们发现它们是能够一起训练的,然后 3D 的视觉可能又和其他的三维传感器和下游的移动操作,可以是一起训练的。再往后看可能控制模型可以单独训练,做一个全身控制。我们进行了一些合理的切分以后,我们就发现这每一个子 Foundation Model,它有很多足够的数据供给,能够被训练。

但是说回来,面向最终机器人的 Foundation Model 该怎么做?我觉得最重要的事情是神经网络化。我们也不用指望着一口吃个胖子,做一个模型把事情都解决了,关键点是要从现在开始就把这几个任务全都用神经网络解决。因为当以后我们有了足够的数据,数据能把模型的表现 scale 上去,如果我们现在没做好这个准备,就相当于在走一条反 Scaling Law 的路线,我们再也不可能走上正轨。所以面向这个终局 Robot Foundation Model 该怎么做?神经网络化在技术上是一个非常重要的起点。

张鹏:听起来赵行还是相信终局要有一个 Foundation Model 去起作用的,而且这个东西一定要最终用到 Scaling Law,就要有这个 belief,即便今天在数据上还有很多问题,但最终有办法解决,否则你就站在了技术发展的对立面,我觉得这是非常重要的技术世界观。

最近我也听到好多大模型领在探讨自适应。正好有个问题,数据的收集应用该怎么做?很多公司按照任务收集人类的 Demo 数据,这会不会影响泛化?如果不按照任务收集,那更根本的数据又是什么?

赵行:先说一说数据的终局是什么样子。这个强力借鉴了许老师之前的一个讲座,就是说数据最后应该会形成一个金字塔,这个金字塔里面有一些互联网数据、仿真数据、真实世界采集的数据、在线调整的数据。

对于怎么样训练好一个有通用性的模型来说,我们需要设计一条路径,就是说到底在什么时候采集什么样的数据,以及多少依赖于仿真,多少依赖于真实,或者说把真实的放到仿真器里做一个 randomization,或者叫 augmentation,这条路径我觉得是一个技术问题。

DALLE-3 论文里告诉我们,百分之九十五是一个黄金比例,95% 的意思是说手动标 5%,剩下 95% 通过数据飞轮自己去生成筛选。反之,100% 的真实数据标不动,标不起;100% 生成数据让模型表现的很差。这个里面有很多技术性的,也有经验性的东西组合在一起,很难用一句话回答,但我觉得需要找到一个好的数据路径去达到终局。


05

具身智能和自动驾驶,

都需要把数据闭环做起来

张鹏:做研究还好,但如果最终要变成产品,要在真实世界里面直接起作用,真实的物理世界是非常复杂的。作为一个人,我们可以自适应,但机器人要去面对的问题是非常复杂的,怎么解决如此复杂的物理世界问题?

高继扬:这个问题是每一个创业公司要思考的核心问题,最关键的问题是场景的选择,产品形态的设计,以及对于前沿技术的把握,我们要兼顾几条原则去思考问题。

第一就是产品的失效成本,第二是数据的获取成本,第三就是带着科学的问题去做产品设计。现在具身智能里移动能力是一大块,操作能力是一大块,他们分别会有一些还在科学探索的领域,这一部分我们不能把它带到产品设计里,否则就落不了地。还有一个原则,就是本体成本,本体的硬件成本这块,要在三年左右的时间进入到一个和人力可比的阶段。我们带着所有这些约束条件,然后去做场景扫描,找到合适场景去做。

我觉得场景选择、产品设计是具身智能创业最难的问题。而要把这个问题回答好,需要首先对技术有了解,对 AI 规律有了解,第三必须要深入到产业里面去,一个一个看,一个一个去扫描,看到底哪一个场景是能做的。

在这个过程里面,我们希望能够找到一种元场景,它是由几个基本元素构成的场景,这个场景可能在生活当中出现,可能在生产场景当中出现。为什么我们可以去做这元场景呢?因为具身智能的通用性,带着元场景的假设去看,这个我能做,那个我也能做。但是元场景本身做了一些条件的限制,这是我们去找场景切入点时候的大思路。

张鹏:我理解的是你其实是要先定义下限,基于可以被扩展,可以被叠加再继续改进。那什么是科学问题,什么是商业问题,应该远离哪些科学问题?

高继扬:首先我们怎么看科学问题和工程问题,我们做产品设计的时候不要带着科学问题的假设,但是我们需要判断清楚哪些是科学问题,哪些是工程问题。

什么是工程问题,什么是科学问题?工程问题就是,前进的路径已经很清晰了,照着这个路径一定能够有进展。科学问题是,现在面前有 5 条路径,路径走向的终局我不太清楚,而且还可能有第六条路径在,这就属于科学问题。

张鹏:现在有很多具身智能的公司出现,可能会产生一些连锁反应。从创业公司的视角来去看,周边还有哪些力量?相关上下游产业会是什么样的状况?

高继扬:我觉得在具身智能的发展里面,我们不能忽略的一股力量就是智能汽车。它把供应链开辟了出来,没有智能汽车,高线束激光雷达不可能量产;没有智能汽车,终端上的大算力芯片和域控制器也大概率没有。这俩都是具身智能机器人,能够从实验室走到量产的必要环节,所以我们其实还很关注,传感器和智能系统,也就是算力系统的发展。

再从另外一个角度去看这个事,一个具身智能产品,从硬件上到底需要哪几部分?其实这些就是它相关的供应链。除了刚才说的算力系统和传感器,还有动力、电池、结构,一共五部分。这些相关产业在过去这些年里边都有挺多发展的,我们可以说是站在这些巨人的肩膀上做产品。

我们做整机的设计,这一层是跟系统、算法、场景是高度相关的。壁垒没有大家想象的那么大,真正的壁垒还是在算法这块。

张鹏:具身智能跟自动驾驶领域,在传感器和最终的数据上有什么样的异同,有哪些东西是可以从自动驾驶领域继承过来有很大的帮助的,又有哪些东西可能要超越它,要有一些新的突破?

赵行:如果纯看技术的话,自动驾驶和具身智能的感知、移动这些是重合的,但是其实又不一样。自动驾驶的感知只用做车、自行车行人的检测,但是一到开放的生活场景、商业场景,我们看到的物体千奇百怪,这种东西怎么感知?所以我觉得具身智能和自动驾驶之间还是有巨大的鸿沟。

再看移动,自动驾驶里有一个很简单的解决方案,可以预定好行车路线,制定一些简单的规则,比如在高速上并不需要很复杂的规划控制才能在高速上开车。因为车道、高精度地图都是存在的,但是一到具身智能的开放世界以后,不存在地图的概念,该怎么走,去哪儿,这些都可以自定义,对于机器人来说自由度特别大。

看起来它们有很大的相似度,但是具身智能机器人比自动驾驶复杂很多,那为什么我们又觉得做过自动驾驶的人非常适合做具身智能?因为核心思路特别重要,要用数据闭环的方式把具身智能做起来,不能想着走捷径,比如说机器人有一个动作没有做好,那要不就写一个兜底规则给做了。对于做过自动驾驶,尤其是做过量产自动驾驶交付的人来说,就知道这样的事情一旦做了一次,再做第二次就会有下一次。最后规则堆积如山,这套代码就无法维护了,失去了所谓的通用性。

张鹏:自动驾驶行业到今天也没有出现特别赚钱的公司。我们曾经认为这个领域里面是一帮蕴含着很多机会的,也有很多自动驾驶的公司,但我确实觉得有可能他们的下一阶段就是要在具身智能里面发挥更大的作用,释放更大的这个价值。

我们再往技术的维度里边稍微深潜一点,对于全球的技术进展,比如像感知、控制、决策这些机器人的核心要素,接下来有什么让人觉得比较 promising 的进展趋势?

许华哲:我自己可能更偏向于学术上面,比较感兴趣的有三个点吧。

第一个是 Scaling Law,在模仿学习里面的 Scaling Law 到底存在到什么程度?那根线到底长成什么形状?到底是我有了 100 条数据以后它就可以泛化了,还是 1000 条,1 万条,还是无论给我多少,我仍然有难题解决不了。就是这根线到底到哪儿,是没有探索出来的,而也是大家非常想探索的。

第二个是我在实验室一直思考的问题,强化学习在物理环境中如何落地是非常有趣的事情。强化学习已经落地了,落在 Alphago 上,Alphago 已经击败了李世石,但是当我们谈到强化学习在机器人上的时候,大家走的一条路叫做 Sim-to-Real,在仿真里面训好了,然后在现实中去把它部署。但是如果我们反思我们自己,作为人,我们每天都在做强化学习。那为什么在机器人上并没有真正落地?我们人类并不是说所有事情都在脑子里面先想好,然后到现实里面去执行,对吧?现实中的直接强化学习怎么做我觉得很有意思。

第三个我觉得很好玩的,叫做 Real-to-Sim-to-Real,就是我始终觉得我们手动搓这个仿真是搓不完的。世界这么大,自己永远也做不完,那怎么办?有没有可能把现实中的东西直接搬到仿真里面,然后再把仿真里面得到的东西迁移回现实?整个过程可能要结合 NERF、3D、GS 等等这样的视觉手段去做,这是我自己比较感兴趣的事情。


06

1000 万出货量何时会到达?

张鹏:我想再往前延展一点,今天难得我们又有创业者,又有技术专家在,创业者看未来有一个很重要的时空尺度判断。我问问华哲,从一个技术专家的角度你去判断,假定能够有一个一年出货量上千万台的机器,你认为这是个一年内的事,18 个月内的事,三年内的事,还是五年内的事?

许华哲:首先技术判断往往是错的,这个我们不得不认。就像当年 IBM 总裁说世界上一共只需要五台计算机,从实际情况来看他的这个判断可谓是大错特错。技术判断是超过人类的预想的,基于这样的经验和教训,我们可以 aggressive 一点,赌三年就会产生千万级的公司。当然这也取决于继扬老师是否努力。

张鹏:我们再问问赵老师,凭借你对 Tesla 的了解,你觉得他们双足机器人在产线起作用,会到什么时候?

赵行:我自己对于 Tesla 所讲的人形机器人进工厂这事不是特别认可,因为工厂整体来说是一个人为专门改造过的场景,它为效率进行过优化,所以说双足机器人可能在这里面的效率并不是特别高。

短期内,我觉得对于 Tesla 来说,它可以去走一些更加激进的路线,比如说去直接把双足机器人做到家庭,或者探索太空这样一些更加激进的目标。

出货量千万是一个还是比较激进的预测,几十万台这个数量级,我觉得它可以在其他领域有施展拳脚的空间。

张鹏:再到继扬这边,具身智能机器人能到 1000 万的出货量,你认为会在未来几年内出现?

高继扬:我还是倾向于拆解这事儿,到底什么决定了它的速度?

很关键的一个点,就是我们找到适合具身智能的元场景的速度决定了具身智能发展的速度。只有找到合适的元场景,才意味着我们能批量完成机器人的部署,批量把数据收回来,完成数据飞轮的滚动。再做一个推理,就是哪里有最丰富的场景给我们去找?中国有最广泛的用工场景,但是又有一个相悖的点,中国有最大的用工场景,但也是人力最便宜的地方,替代难度就变得更大。

我们目前看到了一些还不错的机会,我觉得 1000 万台取决于元场景能够在多快的时间内扩大,这个相对来说务实一点,三年之内我们能明确看到的是十万到百万级别的出货速度。

张鹏:对,如果要到千万,肯定是在 C 端场景里。再往前想象一下,也许再过个五年,每个家庭里都会有一个服务机器人,这样的一个机器人,你们会认为它更大率概率是双足吗?它的价格应该会在什么样的水平?以及如果真的要做到这一点,目前技术上最大的阻碍会是还有哪些?

许华哲:我觉得一定会有双足,但不全是双足,如果机器人作为宠物的话,我想我们并不希望它是一个双足机器人。回到继扬最早的那个说法一脑多形,我觉得人形是其中一个,也会有其他各种各样的形态,甚至会有一个机器人的社会形态,就像人类在这个社会中的形态一样。

关于成本,我觉得可以看看汽车,就是说早期的时候,汽车不是家家都有。我觉得机器人也是这样,最开始成本很难一口气下降,所以没有真正达到千万规模化的时候,那肯定是很贵的。但渐渐价格会下来,那个时候是真正机器人进到家里面的时刻。

还有一个很重要的伦理问题,机器人来到家庭中以后社会形态跟现在社会形态相比有翻天覆地的变化。我们跟它们到底是主仆关系、朋友关系、宠物关系、还是怎么样。可能要等出货量从十万到百万到千万那个过程中渐渐探索问题的答案。

赵行:我觉得通用+人形这个组合其实不是特别必要,如果真的要分类的话,最好还是从功能来分,而不是从它的形状来分。当然刚才说到目标是通用,所以功能应该是一些大块的功能,比如情感陪伴机器人、跑腿机器人、清洁机器人等等,和我们现在的家电一样,只不过变成机器人以后,它的能力更全面,自己能够闭环整个任务,大幅减轻我们人的压力。

第二个说一下价格的问题,我觉得价格又和家电一样,我们父母那代人结婚等重大事件的时候,才会考虑买大件家电。后来慢慢价格被大家接受,出货量量就会上去。

再往后看,我觉得如何构建大脑中心、数据中心,对机器人来说挺有意思的挑战,因为机器人收集到的数据一旦进入到家庭里后,有一些隐私问题,这些数据该去如何保存、如何交易。甚至我们其实已经看到,包括国内已经开始做这个数据交易了。这个数据是可以被定价的、被交易的、被确权的,这也是一个挺有意思的问题。

张鹏:我觉得机器人在家庭里解决一些功能,这是一个维度,另一个就是它如何成为一个家庭成员,有它存在的意义。既可能是因为情绪价值,也可能是因为功能价值,这两条线都有存在的空间。

反过来我觉得未来机器人未必是一个家庭管家,也许会存在着很多新的可能性,继扬对这件事怎么判断?

高继扬:第一个问题是,我相信一脑多形,未来具身智能体的世界一定是多种形态的。

第二个定价的问题,我觉得在第一个阶段它会是一个资产,一个能够产生正向现金收益的资产,这是它在 ToB 阶段最合理的定价方式。

从落地难度上来讲,肯定是先 ToB,ToB 要算成本,算回本周期,资产的持有方肯定要算。这些都决定了定价方式,ToC 和 ToB 的定价方式蛮不一样的。所以我觉得第一个阶段的定价抛开成本,成本在到达一定阈值之后,可能会用一个资产的角度看待它。

第三个问题,我觉得核心要解决的挑战还是找元场景。在元场景里面完成第一批机器人的落地和部署,然后把真实世界的数据闭环构建起来,这样会是一个很好的起点。有了这个起点之后,很多技术上的挑战因为数据出现了,都会有不一样的答案。



如果你关注大模型领域,欢迎扫码加入我们的大模型交流群,来一起探讨大模型时代的共识和认知,跟上大模型时代的这股浪潮。



更多阅读

AI 播客应用 Podwise 三万字复盘:两个月 1.2 万美元 ARR 之路

Llama 3 发布!目前最强开源大模型,全面登陆 Meta 系产品,即将推出 4000 亿模型

创业复盘:Ai Pin 失败,8 亿美元估值的 Humane 如何走到这一步?

被 Zoom、Teams 统治的赛道,AI 产品如何三个月内新增 50 万用户?



转载原创文章请添加微信:geekparker