温馨提示点击下方图片,查看公众号“Robot猎场备忘录”运营团队(10月18日整理)原创报告(共182页)

图片
说明:欢迎行业人士交流、简历委托,行业交流记得先加入“机器人头条”知识星球,后添加(微信号:lietou100w)微信,备注“称呼+所在公司+职位”或者“已加入星球”(非备注,不添加);若有侵权请联系编辑运营(微信:Anna_J100)删除,若转载请注明出处;
——

正文:

拥有全球具身智能领域“最强创始团队”,成立仅八个月,估值约150亿元的机器人通用大模型初创公司【Physical Intelligence】于10月31发布成立以来首个机器人通用的机器人基础模型π0( pi-zero)。

机器人基础模型π0被称为一种用于通用机器人控制的视觉-语言-动作流模型,参数量只有3B,就能控制机器人,帮你搞定各种家务。

具体视频展示:

视频中,展示了叠衣服、整理桌子、鸡蛋装盒、折叠纸盒、物品分拣等等复杂动作。

据官方介绍:π0与 LLM 不同,它跨越图像、文本和动作,并通过训练机器人的具身经验来获得物理智能,通过学习新颖的架构直接输出低级运动命令;它可以控制各种不同的机器人,并且可以提示执行所需的任务,也可以进行微调以使其专门用于具有挑战性的应用场景。

注:Paper(原版以及翻译)已上传至“机器人头条”知识星球,可加入星球查看

π0模型的核心技术点包括以下几个方面:

  • π0模型基于预训练的视觉-语言模型(VLM),这使得它能够继承互联网规模的语义知识。

  • 模型使用流匹配技术(Flow Matching)来生成连续的动作分布,这使得它能够处理高频率的动作执行,适合于灵巧任务。

  • 为了使模型能够控制机器人产生连续动作,π0引入了一个专门的动作专家(Action Expert)模块,该模块能够通过流匹配产生精细的、连续的动作指令。

  • π0模型通过结合多种机器人类型的数据进行训练,这使得模型能够适应不同的机器人配置和动作表示,包括单臂、双臂系统以及移动操纵器。

  • 模型能够在预训练后无需额外训练即可执行新任务,展示了良好的零样本控制能力(Zero-Shot Control)。

  • π0模型可以在高质量数据上进行微调(Fine-Tuning),以适应特定的下游任务,如折叠衣物、桌面清理和装箱等。

  • 模型采用预训练后微调的训练方法,先在大型多样化语料库上预训练,然后在更狭窄、更精细策划的数据上微调,以诱导期望的行为模式。

  • 高频率动作控制:模型能够控制机器人以高达50Hz的频率执行灵巧任务,这对于实时响应和精确操作是必要的。

  • 多模态输入:模型整合了视觉输入(多个RGB图像)、语言指令和机器人的本体感知状态,以实现更复杂任务的执行。

  • 混合专家模型(Mixture of Experts):π0模型采用了混合专家架构,其中不同的“专家”处理不同的输入类型,如图像、文本和机器人状态。

从数据上看,π0在零样本泛化能力、语言控制响应、新任务学习、多阶段任务等维度上也表现优异。

零样本泛化能力上,π0在所有任务上都显著超过了baseline模型,即使未加入预训练视觉模型的π0-small也比这些baseline表现优异。

指令处理上,π0在3个语言指令任务上,经人类指导取得了最好的自主表现,高层策略指导也有提升。

在与预训练数据差异较大的新任务上,π0在大多数任务上性能最好,尤其在微调数据量较小时优势明显。

这意味着,不需要专门训练,π0就能让机器人自动完成很多开放性任务。

公司介绍:

Physical Intelligence简称 PI或 π 由UC Berkley、斯坦福大学教授团队和谷歌科学家等科研和技术大牛于2024年3月成立,公司致力于创建可以为各种机器人和机器增添高级智能的软件,最终目标是创建一种作为通用机器人系统的AI模型(机器人通用大脑)。

公司成立仅一个月时,官网还没有建(至今有没有建)就获得来自于Thrive Capital 、Open AI、红杉资本、Greenoaks Capital Parners、Lux Captital和Khosla Ventures7000 万美元融资,投后估值4亿美金;10月,公司计划在筹集3亿美元资金之后达到约20亿美元的估值,且公司已收到多份报价。

PI官网

Pi的官网介绍:“Physical Intelligence是一家将通用人工智能带入物理世界的公司。

联合创始人Chelsea Finn解释说,这其实极具挑战性,需要整合机器人跨平台策略、从视觉和语言模型中迁移学习、并通过模仿学习实现对灵活技能的掌握。

团队表示,Pi并不专注于特定类型的机械臂或工业机器人,而是计划开发可以应用于多种类型机器人的软件。他们也不会制造自己的硬件,创业后第一步是解决工程问题、搭建模型,以及购买各种不同的机器人并在上面开展训练,目的就是积累迄今为止最大规模的机器人数据。

Pi可称为最强创始团队,没有素人,全是行业大牛

左到右,依次是Sergey Levine、Chelsea Finn、Karol Hausman

  • 合创始人Chelsea Finn:现任斯坦福计算机科学与电气工程系助理教授(ALOHA家务机器人项目导师,重点研究通过学习和交互来发展机器人等智能体的广泛智能行为,谷歌学术论文引用数超4.7万;曾在谷歌大脑担任过5年研究科学家,开发机器人深度预测模型MIT 大学毕业后在伯克利取得博士学位,博士导师则是Sergey Levine

  • 联合创始人兼CEO Karol Hausman:之前担任谷歌大脑的高级研究科学家,同时也是斯坦福大学的兼职教授;因 “对可扩展的机器人学习算法做出重大贡献”,获得过 2023 IEEE 奖项;

  • 联合创始人Sergey Levine:UC Berkley电气工程与计算机科学系助理教授,人气超高的“网红教授”和“学术狂魔”;

  • 联合创始人:Brian Ichter:先后在谷歌大脑和谷歌DeepMind的机器人团队任职;

  • 联合创始人Lachy Groom :支付公司 Stripe 前高管、著名科技投资人

  • Suraj Nair:丰田研究院ML研究团队的研究科学家,从事ML、机器人和CV交叉领域的工作;

  • Quan Vuong:加州大学圣地亚哥分校四年级博士生;

小编着重介绍Sergey Levine:

Sergey Levine:现任UC Berkley电气工程与计算机科学系助理教授,专注于研究让自主智能体通过学习获得复杂行为的通用算法,集中在机器学习决策和控制领域;并开发端到端深度神经网络训练策略,曾带领团队与谷歌联合开发 RT-X 机器人项目,被认为是强化学习领域的领军人物之一。

Sergey Levine有“学术狂魔”之称,谷歌学术上被引用量超过13万,同时在顶级国际会议和期刊上发表过大量研究论文,接收量长期位居前列,并且经常霸榜。

Sergey Levine于2009年获得斯坦福大学计算机科学的学士和硕士学位,并于2014年获得斯坦福大学计算机科学的博士学位,导师是Vladlen Koltun,他博士后期间在加州大学伯克利分校与Pieter Abbeel教授合作。他的研究重点是用于决策和控制的机器学习,重点关注深度学习和强化学习算法,应用方向主要在机器人和自动驾驶方面。目前是Physical Intelligence联合创始人。

提到Physical Intelligence,不得不提另外一下同类型初创公司Skild AI。

Skild AI于2023年5月匹兹堡成立,由两位前美国卡内基梅隆大学教授 Abhinav Gupta 和 Deepak Pathak共同创立,他们同为印度裔、也都曾是 Meta 的 AI 研究人员创立,公司长期目标是开发扎根于物理世界的通用人工智能 (AGI),以打造一个通用、灵活、智能的人形机器人产品(“通用机器人大脑”)。

2024年7月9日,Skild AI宣布完成了总额3亿美元A 轮融资,投后估值高达15亿美元,是目前估值最高的机器人具身智能大模型初创公司(即将被Physical Intelligence打破)。

Skild AI设想了一个类似 OpenAI 的未来:通过微调,就可以在 Skild 基础模型上构建不同的用例和产品;这正是他们颠覆机器人行业的方式。最终,他们希望抵达机器人 AGI,人们可以在物理世界中,与之互动。

核心产品:Skild Brain

团队构成:公司由两位前美国卡内基梅隆大学教授 Abhinav Gupta 和 Deepak Pathak共同创立,他们同为印度裔、也都曾是 Meta 的 AI 研究人员;团队主要来自 Meta、特斯拉、英伟达、亚马逊、谷歌以及卡内基梅隆大学、斯坦福大学、加州大学伯克利分校和UIUC等名校。

构建「通用的」机器人基础模型| 图片来源:Skild AI

技术层面:Skild AI正在构建一个共享的通用大脑,为机器人提供一种基础模型,作为“通用大脑”;Skild Brain是一个可扩展的机器人基础模型,具备使用性和灵活性的能力,能够使机器人在不同硬件、场景、任务之间自适应。

这个“通用大脑”可以与包括人形机器人在内的任何类型机器人进行集成,以通用AI技术使机器人执行动作,从而在不同场景中处理各种任务,可以在家庭和工业环境中灵巧地操纵物体,可以在任何物理环境中导航。

Skill AI团队透露,相比竞争对手,其数据点至少多出1000倍,这一优势使得Skill AI的模型能够更好地理解和适应复杂多变的物理世界。

产品进展:目前没有商业化进展。

融资层面:7月9日,具身智能领域初创公司Skild AI宣布,公司完成了总额3亿美元A 轮融资,投后估值高达15亿美元;本轮融资由众多科技巨头、顶级风险投资公司与学术机构共同参与。

Physical Intelligence和Skild AI巨额融资和高估值,无不体现国外资本对具身智能大模型(机器人通用大脑)重视。

具身智能领域研究方向可粗略分为:具身智能大模型(机器人“大脑”)和人形机器人(本体+小脑)。

人形机器人大致分为三大部分:人形本体、高动态性能的控制算法(小脑)、具有泛化性的具身智能及非常接近人的通用人工智能。

具身智能领域初创公司主要分三种:专注于具身智能大模型、人形机器人整机和两者同时涉及;全球范围内,专注于人形机器人本体初创公司最多,初步统计,人形机器人整机公司目前已超150家且持续增加中(其中国内最多,并远超第二名是美国);具身智能大模型因涉及芯片、软件、AI算法,资金投入远高于人形机器人本体,目前更多是科技大厂间博弈,初创公司数量远低于人形机器人本体初创公司。

全球具身智能大模型(机器人通用“大脑”)公司背景大体可分为:科技大厂(英伟达、OpenAI等)和科研院校背景创业团队(Physical Intelligence、Skild AI等)。

人工智能和大模型技术突破性发展催生了本身具身智能浪潮,但同时大模型发展瓶颈也同样是人形机器人商业化核心壁垒;相较于上游机器人核心零部件基本成熟,软件算法进步是推动人形机器人功能提升和应用场景拓展的关键;

国外资本更青睐具身大模型初创公司,国内资本更青睐人形机器人本体初创公司作为通用机器人技术核心的具身智能算法(大模型)国内重视程度远不如国外;国内,相比具身智能大模型(机器人“大脑”)初创公司,人形机器人本体厂商更受资本青睐,占据具身智能赛道绝大多数融资份额,更是出现独角兽企业;科技大厂多是推出非具身智能大模型,对具身智能大模型研发投入极其有限。国外,科技大厂对具身智能大模型极其重视,并早已入局(如谷歌、英伟达等;谷歌已完成多次技术迭代,从Saycan到RT-H);国外具身智能大模型(机器人“大脑”)初创企业也备受资本青睐,目前已经超过人形机器人本体厂商(如:Skild AI、Physical Intelligence、Covariant等,皆已获巨额融资)。

国内目前也涌现出一批专注于具身智能大模型(机器人“大脑”)初创公司,以往融资仅是千万级别,并且罕有头部资本身影。然而,随着8月以来,两家具身智能大模型初创企业【千寻智能】、【穹彻智能】亿级融资敲定,国内具身大模型赛道企业开始进入资本视野。9月,专注于打造“一脑多型”的具身智能初创企业【星海图】完成天使+轮融资,投资方为高瓴创投、无锡创业投资和上海米哈游;7月16日,公司曾获得“国家队”北京国管独投的天使轮融资;目前,【千寻智能】新一轮融资已经在推进中,据传将远超往期融资总和;【穹彻智能】新一轮融资也即将敲定,国内具身智能大模型领域也渐渐进入融资潮。

 

注:深度了解“具身智能&人形机器人”赛道,加入知识星球“机器人头条”交流学习

——

近期精选文章:

1、人形机器人创企九死一生:商业化卡点梳理

2、智驾领域从业者,疯狂涌入人形机器人赛道!

3、核心创始团队离开,「小米」、「小鹏」能否扛起国内人形机器人大旗

4、打破遥控质疑,特斯拉发布Optimus最新迭代视频!

5浅谈,华为入局人形机器人赛道

6、国内60+人形机器人初创企业,商业化进展为零!!!

7、北京、上海,争当人形机器人商业化“第一城”!

8、ToB、ToC or ToG,全球人形机器人产品优选落地场景梳理!

9、具身智能领域,全球Top50华人图谱

10、马斯克:特斯拉是唯一一家真正具备大规模生产人形机器人能力的公司

11、近40款人形机器人亮相:谈商业化,为时尚早!谈量产,纯粹“噱头”!!

 

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除