01. 前言

大概半年多前,我们对于机器人学习的前沿与落地进展做了一定的分析:

2022 机器人学习前沿与落地进展到哪了

但是这半年多时间,无论学术界还是工业界都发生了很大的变化,以至于我们需要再来看看目前的情况。

这次,标题我们改成了通用机器人而不叫机器人学习,因为我们要探讨的已经不仅仅是某一个学术领域了,而是一个具体的落地方向------通用机器人。

在之前的blog里,我们提到了语言模型和决策(Language Model and Decision Making),而这个方向是这半年来大放异彩的方向,基本上改变了机器人学习的研究方式,也大幅度提升了通用机器人实现的可行性。

接下来我们先聊聊Tesla Bot,然后聊聊学术前沿。

02. Tesla Bot - Optimus

在2022年9月30号,Tesla终于公开了万众期待的Optimus,通用人型机器人的原型。看到他蹒跚走路的样子,大家纷纷感叹不过如此,和小米的铁大也差不多。但实事求是的讲,Optimus是一个更完整的人型机器人原型,包含了精细的手和腰,满足做一切人能做的灵巧工作的基础,比如下图的浇花,就需要眼睛看着水壶,机械手拿起水壶,弯着腰去浇花。

所以,Optimus虽然算法还不太行,但硬件是齐全的,接下来就是软硬件不断迭代的事情了。

Tesla 发布人形机器人的意义是比Boston Dynamic发布跑酷视频更大的事,虽然Optimus现在走路都还很笨。为什么这么说根本在于Tesla的人形机器人目标就在通用,绝不是只是做个固定Demo。所以Tesla的一切软硬件迭代都会朝着这个目标进行,那么10年后真的有可能让机器人走进千家万户变成现实。

为什么通用机器人一定要是人形?

这里引用一下我用Character.ai 构建的自己生成的回答:“我认为双足是实现机器人革命必须的技术,只有双足才能让机器人更为灵活自如,更接近活跃于人类生活的机器人,所以无论是单足机器人还是轮式机器人,我都不看好!”

人类的形态是大自然千百万年进化出来的极优形态,从而实现我们目前的文明。那么机器人要来帮人类干活,显然人形机器人是最佳的。

而另一个重要的原因为什么最好是人形机器人是:

人形机器人可以非常方便的通过模仿人类的学习!

我们有海量的视频可以让机器人去学,人形机器人可以最直接的将学习的东西映射到机器人身上,从人类的行为直接学习是最方便实现通用性的方式。下图就是一个很好的例子,Tesla使用人类动捕数据让Optimus来直接学习,这会是未来机器人最主要的学习方法之一。

我们可以相信,基于Tesla强大的硬件能力,未来2-3年内Optimus的硬件就足够来满足通用机器人的基本要求,那么剩下的就是算法了。

03. 通用机器人的大脑:用大模型来做决策

算法,也就是机器人的大脑是最难的。在大模型出现之前,这个问题几乎是无解的,怎么可能让机器人拥有常识呢?因此,之前的机器人都是专用机器人,只能用在限定场景中。就算是这两年很火的机器人抓取,使用计算机视觉,也是非常限定的场景,深度学习只是用来识别物体,怎么做还是人规定的。但要让机器人通用,叫他去浇花,他就知道去拿水壶,接水,然后浇花,这是需要常识才能完成的事情。

大模型的出现,让机器人可以拥有常识,从而具备通用性去完成各种任务。

这彻底改变了通用机器人实现的模式,大模型(Foundation Model)理论上具备实现一切的可能,自然而然就能驱动机器人了。