大模型热潮未退,具身智能悄然登场,成为新一轮科技竞赛中的“硬核新星”。


在第七届智源大会期间,“智源具身智能会客厅”中,宇树科技、北京人形机器人创新中心、银河通用、穹彻智能与Physical Intelligence 等一线企业集体亮相。


在这里,我们不仅见识了宇树科技“最能打”的G1机器人,北京创新中心的“最能跑”的天工系列马拉松选手,还看到了穹彻推出的全球唯一具备位置信息与力觉双重反馈机制的具身智能系统;而另具突破意义的是,展区中,银河通用 Galbot 的实机演示。


图注:Karol Hausman 演讲


值得一提的是,在会客厅的前置环节,Physical Intelligence 联合创始人兼 CEO Karol Hausman 发表了题为《Building Physical Intelligence》的主题报告。他指出,具身智能的发展正迎来关键突破,其中视觉-语言-行动(VLA)模型扮演着核心角色。他说,目前,机器人不再需要在每一个场景中单独学习,可以通过互联网数据和多机器人协作训练,构建出具备泛化能力的智能体。


会客厅正式环节,北京智源研究院院长王仲远对话宇树科技CEO王兴兴、北京人形机器人创新中心总经理熊友军、银河通用创始人兼CTO王鹤、穹彻智能联合创始人卢策吾,以及Karol Hausman,继续围绕机器人在复杂场景下的泛化能力、模型架构的技术演进,以及从赛事舞台走向产业实用的转化路径展开深入讨论。



在这些亲历第一线的实践者看来,格斗、马拉松不只是表演,而是验证算法、锤炼系统、推进商业化的重要“试验场”至于机器人是否必须具有人形、VLA是否具备通用潜力、数据与算法如何协同演进,每位嘉宾都交出了自己的思考与答案。


“能干活,才是未来。”——这是本场对话最强烈的共识。


以下是圆桌论坛全文,智源社区进行了不改变原意的整理:


从格斗到叠衣服:机器人开始“干真活”


王仲远:欢迎大家来到智源·具身智能会客厅,今天在座的都是老朋友。我们先从王兴兴聊起。


去年四月,在拜访宇树时,对宇树无需吊架、动作灵活的机器人印象深刻。过去一年,宇树也带来了不少亮点:春晚节目《秧bot》中,16台H1机器人表演惊艳亮相;最近在《CMG世界机器人大赛·系列赛》的机甲格斗中,宇树G1“AI策算师”也夺得冠军,备受关注。


听说这位冠军选手今天也来到了现场,能给大家介绍一下吗?


图注:宇树机器人上台表演。(编者转换成gif的过程中,对原视频进行了加速处理)


王兴兴:台上正在展示动作的,就是不久前在格斗比赛中夺冠的G1机器人,这是我们去年推出的最新型号。


从春晚的集体表演到这次格斗赛中的实战亮相,我们的初衷都是想让大家看到当前全球人形机器人技术的发展水平,并希望以此推动整个行业的进步。


很多人可能会觉得,人形机器人距离真正走进家庭或工厂、承担实际工作还有不小的差距。确实如此,这不仅是我们面临的挑战,也是全球同行都在努力突破的难题。当然,大家的共同目标,还是让机器人真正“能干活”。


不过,在实现这个目标之前,我们已经在多个关键技术环节上取得了突破。接下来,我们也会继续探索商业化应用,让机器人逐步进入更多实际场景。像机器人格斗这样的新兴赛事,我们相信在今年、明年都会越来越火,成为一种全新的、受欢迎的体育形式。


王仲远:除了 G1 之外,北京人形机器人创新中心也带来了一台冠军:天工机器人。在两个月前于北京举办的首届人形机器人半程马拉松比赛中,天工 1.0 成功夺冠。


请创新中心总经理熊友军分享一下天工夺冠背后的故事,同时为我们介绍一下天工机器人有哪些新的升级和亮点。


图注:智源研究院院长,主持人王仲远


熊友军:今天我带到现场的是天工2.0,相比那个拿下“2小时40分钟”夺冠成绩的天工 1.0 有了更新的升级。此外,天工2.0不仅是一个机器人,也是开源开放的机器人平台。


在功能上,天工2.0的上肢系统得到了显著强化,配备了灵巧手,具备更高的自由度和更强的负重能力,从而拓展了它在实际任务中的应用范围。


图注:天工2.0 现场展示准备茶点。(编者转换成gif的过程中,对原视频进行了加速处理)


天工机器人所在的北京人形机器人创新中心成立于2023年11月2日,是全国首个省级人形机器人创新平台。2024年4月,该中心升级为国家地方共建具身智能机器人创新中心,这次升级是一个面向体系能力的全面提升,重点体现在平台的四个方面能力建设上。


第一是硬件平台。早期我们主要解决机器人在各种复杂地形上的行走能力,比如环形跑道、草地、沙地、丘陵、石子路等。天工机器人也因此被认为是“最能跑”的人形机器人。现在,我们正将重点转向工厂等更贴近实际、高风险的场景,让机器人能真正上岗替代人类完成任务。


第二是软件大脑。今年3月我们发布了通用具身智能平台“慧思开物”,实现了“一脑多能、一脑多机”。它由“大脑”和“小脑”两个部分组成:大脑负责感知、理解和决策,小脑负责具体动作和任务执行,两者配合形成一个闭环系统。


图注:北京人形机器人创新中心总经理熊友军


第三是数据中心。我们建成了国内领先的机器人训练中心,专门为具身智能体提供数据支持。这里包含20多个典型应用场景,同时配套了数据采集、处理和人才培养的完整体系,为机器人持续进化提供动力。


第四是验证平台。目前,我们正在牵头建设“中试验证平台”,用于关键技术的测试与系统稳定性验证,为规模应用提供坚实支撑。


王仲远:2021年,王鹤从斯坦福回国任教,2022年加入智源,负责具身智能研究中心。2023年,他创办了北京银河通用机器人。今年他还荣获了MIT TR35大奖,主办方特地请我为他颁奖,说这是科研精神的传承。


那么,关于银河通用机器人,王鹤有没有什么新的进展?


王鹤:今年是银河通用机器人第二次亮相智源大会。去年我们展示了机器人从货架上抓取盒装物品的能力,今年则带来了一个更贴近真实商超环境、更具适应性的升级方案,采用了VLA技术。



图注:银河通用机器人展示商超货架场景应用(编者转换成gif的过程中,对原视频进行了加速处理


这次现场演示的是我们的轮式机器人 Galbot,搭载自研的端到端具身大模型。在面对货物密集的货架时,传统的轨迹规划方法容易发生碰撞,难以稳定完成抓取。而我们的模型能在复杂环境中精准识别和操作各种商品。它是一个闭环系统,比如在抓取过程中即便有人干预,它也能实时调整动作,继续完成任务。


此外,我们在展区也部署了Galbot,大家可以通过iPad下单,机器人会把商品直接送到你手边,欢迎亲自体验。


特别的是,这也是我们首次在高复杂、多SKU真实场景中,用VLA技术展现的实机展示。我们的核心优势在于训练数据来源不同于传统方法,主要基于可扩展、低成本的合成数据,从而大幅提升了训练效率和泛化能力。


图注:银河通用创始人兼CTO王鹤


王仲远:去年3月,在上海交大与卢策吾老师首次见面,当时向我们展示了基于力反馈机制的具身智能系统,在叠衣服、刮胡子等任务完成上,表现非常精彩。


不知道最近卢老师在这方面是否有一些新的进展?


卢策吾:从产品角度来看,我们在去年发布了穹彻具身大脑的V1版本,计划在今年7月推出V2版本。新版本将更好地体现机器人对物理世界的理解与交互能力。


我们特别强调“力反馈”,是因为在日常生活中很多动作其实靠的是下意识的触觉。例如刮胡子就是一个典型场景:机器人虽然可以稳稳地握住剃须刀,但整个过程中需要不断进行精细接触和动态调整,因为力道太大会刮伤,太轻又刮不干净。这类任务对系统的稳定性和响应能力要求极高,机器人必须像人一样,能在无意识的状态下自动微调动作和力量。


当然,这种动态感知与接触控制能力的系统,在执行复杂、连续、精细操作时会有巨大的价值。



图注:彻机器人挖冰淇淋演示(编者转换成gif的过程中,对原视频进行了加速处理)


视频中展示的是机器人挖冰淇淋的操作。相比一次性抓取,挖冰淇淋需要机器人在每一毫秒都进行精细调整,稍有偏差就无法达到理想效果,这种操作非常接近人类的“手感”和本能判断。


目前,这套系统已经在食品处理和包装行业实现了规模化应用。虽然受限于客户保密协议,相关视频无法公开,但实际上,大家今天吃到的一些食品,背后就可能有我们的机器人在参与制作。


值得一提的是,我们采用的模型融合了力反馈与位置信息控制,是目前全球唯一同时具备这两种反馈机制的具身大模型系统。


王仲远:下面有请 Karol Hausman。其实在中国,Physical Intelligence 公司一直备受关注。每次推出新模型或演示视频,社交媒体上都会引发热议。比如最近发布的 π-0.5 机器人模型,在中国社区也很火。


Karol,请问 Physical Intelligence 团队最近在具身智能和机器人方面有什么新进展吗?


图注:Physical Intelligence 联合创始人兼 CEO Karol Hausman


Karol Hausman :关于 Physical Intelligence 在中国的影响,我多少有所了解,但坦率地说,了解得还不够深入。非常感谢对我们项目的关注。


我们的愿景是让这类模型向所有开发者开放,赋能全球范围内的机器人,让它们能够完成真实世界中的各种有用任务。


关于我们最近发布的模型,我们非常自豪。过去,我们一直认为,让机器人在完全陌生的环境中完成有效任务是非常困难的。我们也选择挑战性极大的“家庭”作为机器人测试场景:每个家庭差异巨大,比起结构较为统一的工厂场景,家庭能更真实地考验机器人模型的泛化能力。


我们面临的核心问题是:机器人要在全新家庭中表现良好,需要多少样本多样性的训练数据?结果出人意料。如我在演讲中提到的,只需在100个不同家庭中训练,机器人就能很好地泛化到第101个陌生家庭中。


当然,它不是每次都成功,目前依然存在不少失败案例。但这一成果表明,或许我们并不需要极大规模的数据集,也能实现具身智能的真实泛化能力。


虽然这只是一个开始,但它已经展现出非常令人振奋的前景,超出了我们最初的预期。


为什么是“比赛”推动了产业前进


王仲远:接下来聊一聊热点。今年具身智能之所以能“破圈”,很大程度上也是因为一系列机器人大赛的举办,比如马拉松比赛、格斗比赛等等。据说,今年8月份还计划在鸟巢举办一场更大型的世界人形机器人运动会。


大家对这些赛事活动怎么看?它们更像是技术的验证场,还是某种“秀肌肉”的表演?


图注:宇树科技CEO 王兴兴


王兴兴:从今年春晚的机器人表演到近期的格斗比赛,这些活动为大众提供了一个直观了解人形机器人发展水平的窗口。


不同企业的参与方式也反映了各自的技术路径和发展阶段。前面也说了,我们公司始终坚持一个目标:让机器人真正“干得了活”,无论是在家庭还是工厂。虽然现阶段人形机器人还难以全面应用于家庭,但这是我们努力的方向。


很多人认为我们专注于跳舞或格斗等“表演类”项目,但对我们来说,这其实是训练机器人掌握全身运动能力的一部分。跳舞、格斗、端茶倒水、做家务,本质上都是对全身协调性的考验。


我们相信,未来真正实用的家用机器人,也应该具备这些能力,因为这体现了它的运动控制与泛化水平。在最终目标实现之前,我们通过比赛和表演展示阶段性成果,同时探索商业化可能。例如,今年上半年,人形机器人租赁市场已经初现价值。


所以我们参与这些活动,并非只是“秀肌肉”,而是希望让更多人看到这项技术的真正潜力和发展方向。


熊友军:举办机器人竞技赛事意义重大。尤其是即将在北京鸟巢举行的人形机器人运动会,更是体现了多重价值。


首先,这是一场全民科普盛会。通过短跑、障碍赛、接力、足球、舞蹈等大众熟悉的项目,让更多人以轻松、有趣的方式了解当前机器人技术,提升公众对机器人的认知与接受度。


其次,这场比赛也是技术的实战“训练场”。不同于实验室中的封闭测试,比赛设计了多个源自现实生活的应用场景,如工厂中的搬运、医院的药品配送、酒店的服务任务等,有助于推动机器人技术与实际场景深度融合。


第三,这样的赛事也是连接产业界与潜在客户的重要平台。集中展示技术成果,不仅吸引关注也促进合作,推动机器人更快落地和产业化。


总的来说,这类赛事不仅是技术展示和竞技比拼,更是推动机器人走进现实生活的重要催化剂。


王仲远:Karol,不知道你有没有关注到中国最近这些机器人比赛?在国外有没有类似的活动?你怎么看这类赛事的意义?


Karol Hausman :我觉得这类赛事在海外还没有像在中国这样受到广泛关注,这是一个非常有意思的发展趋势。我知道国外也有一些相关的比赛,比如 RobotCup 及其一些学术性的机器人竞赛,但整体规模目前还无法与中国相比。我非常期待看到这种趋势在未来会如何发展。


王仲远:比赛可以展示机器人的极限能力,但我们更期待它真正走进工厂、走进家庭,解决实际问题。那么,如何看待“比赛”与“落地”之间的关系?


王鹤:具身智能不仅要“看起来酷”,更关键的是推动其真正产业化。我们必须思考:这些能力在新环境、不同物品,尤其是在用户要求极高成功率的场景下,是否依然有效?这是银河通用与智源在推进产品落地时重点关注的问题。我们的核心目标是优先突破关键技能,比如“移动抓取”。我们聚焦的也是更具通用性的货架环境,例如超市、工厂料库以及外卖前置台。


如果我们的人形机器人能在这些场景中实现 24 小时稳定运行,就意味着具身智能开始真正服务社会、释放生产力。这不是设想,目前在北京,我们已开设7家无人药店,由人形机器人承担夜间接单和配送任务,既便利了用户,也缓解了人力紧张。


到今年年底,我们计划在北京、上海、深圳落地100家无人药店。未来,超市配货、工厂配料等任务中,机器人也将发挥重要作用。


我们也期待,未来的机器人赛事不仅是表演,更能推动“操作级技能”的形成,加速整个产业生态的成熟。


图注:穹彻智能联合创始人卢策吾


卢策吾:机器人赛事本身非常有价值,能很好地展示技术能力,但它更应该是一个起点。接下来我们更希望看到机器人能“干活”的比赛,即真正体现生产力和实际应用价值的比赛。


这方面我们也在积极推进,比如把具身大模型,尤其是适用于物理世界、高持续接触、具备力位反馈的能力,逐步应用到食品、食材加工等真实场景中。


如果未来能有更多“技能型”的比赛,就能更好地锤炼和检验这些实用能力。我们也希望通过这样的路径,让大家真正看到:机器人不是只会表演,而是能劳动、能创造价值——劳动最光荣


人形是过渡形态,但目前最划算


王仲远:我们接下来聊聊机器人的构型。最近清华大学张钹院士在一次学术会议上提到,人形机器人可能不是实现具身智能或 AGI 的最佳路径,他认为硬件要多样,软件要通用


如何看待这个观点?


王兴兴:我在很多场合都提到过,我们并不坚持“机器人一定要做人形”。对我们公司来说,从四足机器人发展到人形机器人,是技术自然演进的结果。


比如下肢部分,我们并不执着于“人腿”结构,轮式底盘在很多场景反而更实用。但目前大家普遍采用类人形设计,特别是保留类似人类的上半身,主要是因为当前AI训练大多依赖人类动作数据。


机器人形态越接近人类,数据采集越方便,训练效果也越好。尤其像跳舞、格斗这类全身动作,对“类人结构”要求很高,形态差异过大就难以完成这些复杂动作。


当然,我相信未来进入 AGI 或通用智能阶段后,机器人的外形将极大多样化,会根据不同任务出现各种更高效的设计,结构、尺寸、材料可能比现在丰富百倍。


但在目前以数据驱动为主的阶段,类人形机器人仍具有训练效率高、泛化能力强、应用落地快等明显优势。


熊友军:具身智能的发展并不局限于人形机器人,四足、轮式、履带式等形态都是可行的载体。但从市场前景来看,我认为人形机器人依然是最具潜力、最有规模化价值的方向。


首先,未来机器人最大的应用场景应该是在家庭和服务业,而非仅限于目前的工厂自动化。工厂只是“前菜”,真正的“主菜”是机器人深入我们的日常生活。


其次,从人机交互角度看,人形机器人更容易被接受。它更像一个伙伴或朋友,甚至可能成为年轻人眼中的“情感对象”,在家庭中更自然地融入。


第三,我们的生活环境本身就是为人设计的:门的大小、工具的尺寸、家具的布局等都天然适配人形机器人,因此它的部署成本更低,无需大幅改造环境。


当然,目前在人形机器人的成本和技术成熟度上还存在挑战。但从长远看,它依然是推动具身智能真正落地的最理想选择之一。


模型够聪明,但成功率还不够高


王仲远:让机器人真正“有用”,其背后的模型至关重要。今天大家提到的 VLA(视觉-语言-动作融合模型)就是一个关键方向。


目前,VLA 在无人驾驶领域已经有了较成熟的应用,但相比之下,无人驾驶的操作空间相对封闭,而机器人面临的环境和动作要复杂得多。


那么,VLA 模型在这样更复杂、更开放的场景中,是否还能保持良好的泛化能力?


王鹤:自动驾驶已经证明,依赖数据驱动模型而不是大量手工规则的端到端方案是比较优秀的。


比如传统自动驾驶流程中,先检测三维目标框,再规划轨迹、最后执行控制,这条“模块化路线”走了很多年,但真正落地、规模部署的自动驾驶,基本都采用了端到端方法。


对机器人来说,VLA(视觉-语言-动作)模型的意义也在于此:从视觉感知出发,结合语言指令,直接输出动作,避免中间模块和误差累积,更好地利用数据中的知识。


当然,现在不少人对 VLA 期望很高,甚至希望它成为覆盖所有人类能力的通用模型。但我认为这还为时过早。人类智能还包括触觉、力觉、听觉、温度、嗅觉等模态,这些目前还未真正融合进来。


所以我们应将 VLA 视为一个起点,聚焦在当前最可行的任务上,比如“移动—抓取—放置”。这类任务以视觉为主,结合末端触觉或力觉就能较好完成,且在工业和服务场景中具备大量实际应用。如果我们能在这些任务上实现泛化部署,那将是具身智能迈向实用落地的重要一步。


卢策吾:VLA 模型很受关注,我认为它火得有道理。V 代表对世界的理解,L 是与人的沟通,A 则是行动和改变世界,这几乎涵盖了机器人所需的核心能力。而语言作为“粘合剂”,能将高层知识更好地串联起来。


但我也认同王鹤的观点:VLA 虽有潜力,但在机器人这一更复杂、更高不确定性的任务空间中,仍有明显局限。


要推动 VLA 向通用发展,关键在于压缩任务空间、降低不确定性。在穹,我们正通过引入力反馈和物理理解增强模型稳定性。同时,我们也在用仿真和合成数据构建“数字资产”,减少对真实数据的依赖。


总之,VLA 是很好的起点,但要实现通用智能,还需不断加入更多模态、增强感知,并持续降低系统的不确定性。


王仲远:Karol,今天你的演讲中也提到 VLA,还讲了一句让我印象很深的话:“build a model to control any robot to do any task.”


那么,在推进跨本体 VLA 的过程中,你觉得目前有没有什么关键瓶颈是短期内难以突破的?还是说,这主要是一个数据和时间积累的问题?


Karol Hausman:最大的问题在于模型的成功率还达不到实际应用所需的水平。这不仅仅是数据量的问题。即便我们有无限的数据,用现有的算法也很难在复杂、长时序、精细操作的任务上达到接近 100% 的成功率。这需要全新的算法方法,而我们正在努力解决这个问题。


如果你几个月前问我,我可能会说泛化能力是最大挑战。但通过我们在 π-0.5 上的进展,我觉得泛化这块的思路已经比较清晰了,主要还是靠数据来推动。


性能问题,特别是高成功率的问题,更像是算法本身的挑战,而不是单靠数据能解决的。


不仅做科研,智源要连起整个机器人生态


王仲远:智源研究院作为一家非营利科研机构,一直坚持开源开放,将科研成果面向全球共享。到目前为止,我们已经开源了 200 多个模型,全球下载量超过 6.4 亿次。正是这种开放合作的理念,推动了中国在大模型科研与产业上的快速发展。


现在,智源也开始把 AI 从数字世界推进到物理世界。今天我们发布了“界”系列大模型,包括开源的 RobOS 2.0 和 RoboBrain 2.0,这是我们在具身智能领域迈出的关键一步。


RoboBrain 2.0的官网:https://superrobobrain.github.io


请问:如何看待智源在具身智能领域的角色,或者对智源大会有哪些期待?

王兴兴:未来,智源在发布模型的同时,能配套推出一些学习资源或入门材料,我相信会对模型的推广和应用带来很大帮助,也能吸引更多人参与到这个领域中来。


熊友军:智源研究院在人工智能普及和技术探索方面确实做出了非常多的贡献。非常期待后续能和智源在机器人方向有更多结合,共同推动具身智能和人形机器人产业的发展。

 

王鹤:智源一直代表着中国乃至全球人工智能领域的前沿力量。智源不仅是一家研究机构,更是一个开放协作的生态平台,希望智源能够连接各类机器人公司和研究团队,共同推动中国乃至全球具身智能的发展。

 

卢策吾:智源这个平台真的非常难得,不仅在开源生态方面让大家都能受益,也在人才培养上做出了很多贡献。无论是我们作为企业,还是科研机构,都能在这里形成一个非常健康、有活力的生态圈。

 

Karol Hausman:非常感谢智源的邀请。聆听他人分享的看法非常有趣,大家也都对未来的发展充满期待。

......



- 往期推荐 -

图灵奖得主 Yoshua Bengio 智源大会最新演讲:关于AI,我改变了信念,也改变了研究方向

图灵奖得主 Richard Sutton 智源大会最新演讲:欢迎来到经验时代!

点击「阅读原文」直达大会官网

本文版权归智源社区所有

内容中包含的图片若涉及版权问题,请及时与我们联系删除