2025年已经渐进尾声,具身智能的浪潮正从技术创新的实验室,涌向产业落地的深水区。

数据闭环和世界模型不再是论文里的名词,而是决定一个机器人能否在真实物理世界中“活”下来的核心。泡沫在退去,价值在沉淀,2025年是具身智能告别“炫技”,真正开始“做事”的一年。

为看清前路、凝聚共识,11月20日的智源具身OpenDay汇聚了来自学界、产业界与投资界的顶尖头脑,围绕“模型、硬件、产业”三大核心战场,展开了一场深入而务实的思辨。

智源研究院最新发布的Emu3.5世界模型,通过海量视频数据学习,将多模态理解与生成的边界推向对真实世界时空状态的预测;而RoboBrain系列具身大脑模型,则致力于解决智能体在物理场景中“不好用、不通用、不易用”的落地难题。这也引出了本次三场圆桌会议的核心议题,即物理世界中“身体”与“大脑”的协同进化,以及最终解锁真正的通用价值。接下来,让我们直击三场圆桌会客厅的思想交锋。(本文进行了不改变原意的整理)

具身模型会客厅


问题1:和世界模型结合是实现具身智能关键吗?

王鹤:答案取决于我们如何定义“世界模型”。若其核心是预测动作引发的状态变迁,那么它不可或缺;但若只是经过视频生成模型模糊处理后的概念,则未必。由于机器人与人类的身体结构差异巨大,仅靠人类视频来教导机器人是远远不够的。具身机器人必须拥有预测未来的能力,但这需要大量机器人专属数据进行训练。

王仲远:关键在于定义。若“世界模型”仅指视频生成,它并非核心;但若指能基于过往时空状态,推演下一步状态,并据此做出决策的模型,那它对机器人就至关重要。这绝非简单的视频生成,而是一个能规划精确动作序列、并给出恰当响应的多模态认知模型。

问题2:具身智能会收敛到由某一个统一架构主导吗?具身智能需要自己的Transformer吗?

赵冬斌:目前Transformer仍是主流,但通过预训练、后训练与思维链等技术,模型性能正不断提升。未来或许会收敛于单一模型,也可能呈现百花齐放的多样化格局。

张家兴:绝不能简单沿袭过去大语言模型的思路。人类智能的脉络是“动作先行,视觉随之,语言最后”。当前盛行的“视觉-语言-动作”模型,在其中强行插入语言层,违背了如开车这类技能(视觉与动作直接联动)的本质。我们必须探索属于具身智能的专属架构。

赵行:我们确实需要一个能与大语言模型并驾齐驱的基础模型。它更可能是一个以视觉这一最通用感知为核心的“大型动作模型”,语言后期再加入。这符合“动作第一,视觉第二,语言最后”的生物进化规律。同时,它必须是闭环的——机器人执行动作后能立即获得环境反馈并自我调整,形成持续循环。

罗剑岚未来更可能是一个闭环系统,而非单一模型通吃。该系统需要视觉语言动作模型、具备反思与预测能力的世界模型、强化学习等组件协同工作,让数据在其中流转,实现自我进化。

王仲远:我们坚信终极形态需要一个相对统一的架构,这也是我们布局多模态世界模型的原因。但实现它需要天量数据,短期内(3到5年)难以出现。待更多机器人深入真实场景,积累起“具身智能互联网”级别的数据后,大一统模型才可能诞生。

王鹤:从架构看,语言是离散序列,而行为是连续且空间化的序列,导致动作输出方式尚未统一。更核心的瓶颈是数据匮乏——全球人形机器人数量太少,不足以支撑“动作优先”架构的探索。长期看,需靠机器人数量爆发来孕育强大模型。Transformer的注意力机制本身具有通用性,若解决动作输出难题,架构上或有统一可能。

程昊:我们期望的终极模型,是能根据需求与环境,实时推演出未来上百帧的机器人运动轨迹,机器人依迹执行。目前关注世界模型,正是为了预测“将会发生什么”与“期望发生什么”。挑战巨大,中期可能会用分层智能体技术在简单场景先落地,在过程中采集真实数据,反哺大模型成长。

王潜:纠结于“Transformer”一词是舍本逐末,它仅是一种架构。真正的问题是:是否会有一个像GPT那样里程碑式的物理世界基础模型?答案是肯定的。我们从语言模型中学到两点:一是数据为核心,需要高质量、富含信息量的物理世界真实数据;二是基础模型,必须构建一个平行于虚拟世界的物理世界模型,因为仿真难以模拟接触、摩擦等精细物理过程。最终,这个模型将能掌控集群,并作为世界模型,输出行动、预测等,其核心在于掌握任务间的共通结构与本质规律(如牛顿定律)。未来5-10年,基于物理世界数据训练的多模态模型很可能成为主导。

问题3:数据工作难且重要,采用什么策略?

张家兴:核心是坚信真实物理世界数据。我们致力于构建以人为中心的数据金字塔,目标是同时攻克“质量最高”与“成本最低”两大堡垒。

赵行:策略是以真实数据为基石,三路并进:用真实机器人数据保质量,深入真实场景拓多样性,通过“去机器人化”采集等技术创新降成本、上规模。

罗剑岚:我们坚持获取真实场景下的高质量数据,并着力构建数据飞轮——让机器人在真实环境中自主交互、产生数据,再驱动更多机器人部署,形成生生不息的正向循环。

王仲远:我们的路径是:以海量视频数据与模拟真实世界的数据为基座模型打下基础,再通过强化学习的反馈进行能力升华,其过程犹如孩童,先通过观察认识世界,再通过实践掌握真知。

王鹤:我们重点依靠仿真数据。因为在底层控制(如行走、灵巧手操作)领域,仿真能提供优质的基础控制器,而真实数据主要用于模型微调,以此推动真实世界的数据飞轮转动。

程昊:当前以仿真数据为主,以求快速迭代。目标是透过产品落地获取真实数据来提升能力,若遇高成本场景,则再回归仿真优化,形成“仿真-真实”螺旋上升的闭环。

王潜:各类数据兼收并蓄,但各有侧重:互联网数据用于预测训练,仿真数据用于导航与决策,物理真实数据则主攻感知密集型任务。用好每类数据都需突破核心工程难题,总之,数据多多益善。

赵冬斌:借鉴自动驾驶的成功经验,走落地驱动的数据收集路线。将机器人部署到酒店等真实场景中,让它在工作中自然积累数据,出现问题则远程接管。通过规模化应用,水到渠成地建立数据基石。

具身硬件会客厅


问题1:用一个词形容2025 年具身行业现在正处于哪个阶段

刘东:2025年具身行业是百花齐放,各种技术路线,各种方案,各种硬件本体都出现了,但是整体落地路线应该还没有收敛。

唐文斌:“涌现”,涌现出了很多新的技术,新的方法,新的公司,涌现出了很多新的资金,大家在行业里深耕和投入,这非常好。旷视做机器人很长时间了,那个时代我们还没有看到现在这样的一波技术能够赋能机器人,我们先从搬运机器人,偏仓储机器人先开始。我有一个感受,2025年或者说现在和我们那个时代相比,这个世界在各种节奏上都在被加速,所有人都更加有技术信仰,我们不管从深度学习还是到大语言模型,再到具身,所有技术都超出了我们原来的预期,技术信仰上更加坚定了。坦白讲也挺浮躁的,在价值务实层面上也有一些不同的声音。

姚卯青:我觉得用一个词形容是“虹吸”,具身智能现在都在从原来很多方向在虹吸资源,我们原来在座的各位也不是做具身智能,从智驾,其他AI,第一代AI,第二代AI,都走到了具身智能,这是一个非常好的现象,具身智能回顾过去到今天的技术路线算是集大成者,在自动驾驶,语言模型,视觉模型产业发展改革中积累的人才和技术再汇集到这个新兴产业里来。

唐剑:一个词就是“日新月异”,我睁开眼先拿手机看新闻,基本上每天看到谁发布新的机器人了,用户调出非常离谱的动作,具身智能算法又有了什么大的突破。

蔡颖鹏:我觉得是“量产”,今年出现了很多本体厂商出货量过千台,整个行业应该过万台了,包括灵巧手也是过万台了,这个数据我自己估计在整个行业过去几十年加起来量都没有这么大,所以它是一个很好的起点。同时有这么大的量,也为后面不管是数据采集还是真正的实际应用场景的探索,都能够去打下很好的数据基础。

问题2硬件现在是具身智能的瓶颈吗?具身的硬件和大脑之间谁跑得更快?接下来是谁引领谁?  

刘东需分场景而论。在标准化搬运场景中,瓶颈在于需要更智能的“大脑”来识别任务与环境,硬件本身并非短板;但在需要精细操作与灵巧控制的领域,算法模型虽能设计,硬件却难以完美执行。因此,二者发展并非同步,在不同场景下各有领先。

唐文斌从科研与技术角度看,硬件并非主要障碍,例如夹爪的性能已相当出色,但如何使其展现人类般的操作技巧,仍是巨大挑战。然而,在应用层面,硬件确实是瓶颈。硬件产品的成熟与稳定需要时间打磨,无法像软件一样快速迭代,其发展周期具有不可压缩性。

姚卯青从当前可验证的角度看,算法是更主要的瓶颈。许多操作任务的成功率与效率,算法尚无法满足硬件所能达到的理论上限。但长远来看,硬件挑战更为根本。算法正经历爆发式增长,而硬件在可靠性、功率密度等方面要达到人类的灵巧水平,依然任重道远。

蔡颖鹏硬件确实存在瓶颈,其迭代受物理规律与材料科学的制约,容易触及天花板。但宏观来看,软件瓶颈更为突出。许多演示通过特定调试可以实现,但缺乏适用于垂直行业的通用模型与高质量数据,导致真正落地困难。在许多场景中,软件是比硬件更大的制约因素。

问题3:到底是模型定义硬件,还是硬件定义模型?如果我们希望整个产业更好地凝聚在一起,哪些行为是被呼吁的,哪些行为是有效的?

刘东模型定义硬件还是硬件定义模型,需分层看待。我们智源研究院现在在做分层架构,像上层大脑,我觉得更多是通过模型定义硬件——我们把感知传感器、声音输入等做成标准,比如激光雷达、视觉等,这些在任何一个机器人本体上都可以部署,不局限于某一类机器人形态,毕竟都需要视觉、语言输入。但在机器人小脑层面(VLA那层),模型和本体应该紧密结合,一旦涉及到本体变化或结构变化,对应的VLA模型都需要做很大调整。即便我们做了跨本体模型开发,同一套VLA模型部署到不同本体后,还是针对某一类本体调优的效果会更好。所以从上层大脑和中层小脑来看,是两种不同的情况。

唐文斌我认为模型不定义硬件,硬件也不定义模型,而是场景定义硬件。我内心不太相信完全统一的架构能解决所有问题,因为有很多物理极限在,比如功率密度问题,不可能用一种形态同时解决轻载和重载问题。而且如果用一种形态解决所有问题,大概率设备成本会过高。只有先有了场景,才会有对应的硬件形态。所以我觉得是模型解锁场景——当模型能力达到一定程度,就解锁了新的场景,而场景反过来定义了硬件。

问题4:产业里呼吁什么样的行为,才能有效让大家联动起来、互相赋能呢?

唐文斌我们呼吁构建 “价值闭环” 。核心是打造能为客户创造可计算、可度量价值的机器人产品,并实现规模化应用。我们应警惕那些缺乏真实场景支撑、无法验证闭环价值的“神奇框架”。

姚卯青现阶段,模型肯定定义不了硬件,硬件更多是被客户与场景定义和打磨的,甚至是一个相互适配的过程。对于产业协同,我们应避免过往行业发展中出现的同质化恶性竞争,呼吁共建公平、客观的评测标准与平台,并聚焦于实现真实的商业闭环与客户价值。

唐剑行业共识是,硬件基于场景需求而定,软件模型则用于解锁硬件潜能。正如“硬件决定下限,软件决定上限”所言,二者必须紧密结合、双向奔赴。硬件团队需要软件团队反馈实际问题以持续改进。在诸如关节模组等技术路线上,应鼓励百花齐放;但在标准接口、数据格式与评测体系上,必须形成统一,否则将造成巨大的行业资源浪费。

蔡颖鹏场景、模型与硬件是一个相互反馈、共同促进的循环。硬件方从工程化角度寻求最优解,而场景与模型方则从需求端提出构想,双方需要在物理边界与实际需求之间找到平衡点。

问题5:当前整个行业资源倾斜向人形机器人,如果人形机器人不是最终解,这会是我们一段弯路吗?请大家分享一个2026年你们最关注的行业问题。

刘东首先,人形机器人肯定不是弯路。具身智能的落地肯定不只是人形,因为人类从猿演化成人后学会了使用工具,我们不可能放弃这些工具再回到仅依赖自身的状态——如果让一个人形机器人去操作工具,还不如直接给这些工具赋予一个大脑,让工具自主完成任务。2026年行业发展最大的挑战,是端侧算力如何满足大模型需求。我们没办法用云端算力支持具身在部分场景的落地,必须把算法放在机器人本体内,让大模型真正在端侧跑起来。目前已经涌现出像英伟达这样的产品,但国产化算力还比较落后,所以我们希望2026年能有国产化大算力芯片涌现。

唐文斌我认为人形是手段,不是目的。从情绪价值角度看,人形是最好的形态;但从功能角度讲,人形未必是最优解。今天我们不是在走弯路,因为情绪价值是价值,功能价值也是价值,我们都在推动整个机器人行业的进步。第二,2026年如果用一个词来概括期待,那可能是“规模”——无论是数据规模化、应用场景实际落地规模化,还是逐渐出现更多公司实现应用规模化,都是非常令人期待的事情。

姚卯青面对不同场景还是会出现几个大类,不会像过去那样有割草机、扫地机等这么多细分类目,但可能会出现一些“具类”。正是本着这样的出发点,我们全栈布局了多种形态的产品:有轮式双臂机器人、双足全尺寸和半尺寸机器人,还有多种型号的四足机器人,以满足从陪伴、服务到搬运等多种场景需求。行业是务实的,不会集体走入死胡同。2026年,我期待能看到高质量数据积累到一定程度后所引发的“涌现”迹象,这可能会出现我们前所未见的新能力。

唐剑人形机器人是历史的必然,它作为一种通用平台,将部分取代专用设备,正如PC和智能手机所做的那样。但这不意味着其他形态会消失,工业重载机器人等仍将长期存在。2026年,我相对确定能看到人形机器人在垂直领域的规模化落地,同时也期待具身智能模型能迎来类似ChatGPT的突破性进展。

蔡颖鹏我坚信具身智能将是多种形态共存的生态,而人形机器人因其是各项核心技术的集大成者,必将占据核心地位。我们的所有投入都不会白费。2026年,我特别关注在垂直行业中的应用能实现真正的商业化落地。

具身产业会客厅


问题1:具身智能最核心的一些要素是什么,是强壮的身体还是最强大脑,又或者是场景,还是连接的高速网络?

杨继峰核心在于大规模算法。关键命题是如何在大模型范式下表达与应用物理交互信息。当前行业远未到讨论本体的阶段,未来需解决物理属性在模型中的表达与学习问题,这需要数十亿甚至数百亿规模的算法支撑,其复杂度远超现有硬件成本。

李凯从产业落地视角,我们更关注基于场景的商业闭环。核心在于三点:一是系统设计,技术无需尽善尽美,能满足场景需求即可;二是全生命周期运营,包括保修、备件与全天候服务保障,其中工业级指标如连续工作时长与防护等级常被忽视,却是落地关键。

于蓉蓉我们觉得核心要素可概括为 “模、数、体、网、场”。从运营商角度看,网络是机器人与人协同作业的基础保障;而场景是落地的锚点,无需一步到位,可在用户期望与技术成熟度间寻找平衡,以小切口培育市场。

蒲天骄我认同垂直领域 “硬件决定底线,软件模型为核心大脑” 的观点。电力系统对具身智能的专业性、安全性、可靠性要求极高,需机器人具备专业多模态数据感知、知识理解、业务推理能力,实现智能感知、认知与决策。电力具身大模型是电力具身机器人的核心要素,确保其能像专家一样驾驭系统、安全工作。

曹满胜作为用户方,核心关注机器人能否思考、干活、有效完成任务,尤其在地下煤矿采矿、管沟巡检、危险有害场所等人力无法覆盖的场景。当前机器人硬件执行能力不足,难以操作设备工具,场景判断能力欠缺,制约了落地应用。具身智能无需全能,若能在固定环境中完成单个工种的工作,创造价值覆盖成本,市场潜力巨大。

黄鹏核心是场景,更准确地说是 “AI所需的场景再造” 。当前我们缺少三样东西:成熟的模型、高质量的数据集、以及区别于大语言的具身知识库。必须通过场景的标准化再造,才能衍生出结构化数据,最终驱动数据飞轮与模型诞生。

张名举:两大要素至关重要:一是在特定场景形成闭环,从细分需求切入,实现功能与性价比的平衡;二是严格控制价格,过高的售价会拉高用户预期,而亲民的价格能使单一核心功能成为充分的购买理由。

问题2:目前具身智能正在从实验室走向千行百业,结合各单位分享一个具身智能落地的形态以及应用案例,它解决了过去什么样的问题?

杨继峰:工业领域里,轮式双臂机器人在物流或汽车工业场景,短期内会是落地潜力大的形态。现在工业体系还没被 AI 彻底重构,现有数字化系统下,调度、任务流串行带来的遗留问题,都是需要柔性且高附加值的未解决需求。比如上下料,产线自动化在物流端已经成熟,但把物品从无人车搬到 AGV、从料箱里拣选分拣,还得靠人工。这类岗位刚好衔接柔性自动化和自动物流,现有设备泛化性不够,用轮式双臂机器人替代这类人工,再搭建垂直领域的数据、模型和算法框架,汽车工业会是主要应用场景。

李凯:落地的关键是给付费方创造价值,能解决 “三高” 问题的才有人买单。一是高复杂度,比如人眼测不准的,图像技术能搞定;二是高危险性,像有毒气的管廊,人进不去,机器狗就能巡检,我们改造后不用强泛化能力也实现了商业化;三是高成本,需要大量人力的流水线场景。但也有失败案例,轴承工厂的老工人一眼就能分辨轴承好坏,检出率超 90% 且一分钟能看 100 个、极少请假,而机器人替代方案要么检出率难达 98%、算力跟不上导致速度不足,要么机器易坏且无备份,故障后会引发全线停工,反而得不偿失。

于蓉蓉:我们做消费端产品,核心是功能价值 + 情绪价值。现在小人形、数字狗这类商用产品,情绪价值占 70%-80%,功能价值才 20%-30%,但也能找到目标客户形成良性循环。明年触觉技术突破后,功能价值能提升到 50% 左右,到时候再优化产品形态和技能,覆盖更多客户。

蒲天骄:我们发布了电力行业的 “光明大模型”,和人形、轮式机器人合作,应用在变电站操作、配电线路带电作业这些高安全要求、高危险的场景。之前的机器人都是固定路径、预设任务,现在的智能机器人能自主识别,操作准确率 90%,已经在海淀玲珑居试点,自主性提升特别明显。

曹满胜:产业端确实需要具身智能,尤其是危险、脏乱、需要 24 小时巡检的场景。原来的机器人都是固定路线任务,价值有限。如果机器人能自主判断场景、完成更复杂操作,能长期驻岗,价值就会大幅释放,用户购买意愿也会强,行业就能快速推进。

黄鹏:我们在PC工厂尝试用机器人替代上下料人力。初期人机协同难度大,现转为聚焦一个子产线,用5台机器人替代6名工人,核心解决“从无序来料到有序送料”的环节。难点在于扣纸盒等精细操作,需借助辅助装置先行落地,再通过数据反哺模型优化。

张名举:家庭场景是终极目标但最难,我们的思路是构建生态 —— 具身智能管家机器人 + 专用机器人 + 机器人友好家电。不能只让一个机器人干所有事,就像光有锤子钉不好所有东西。家庭智能化核心是减负担、提质量,比如处理衣服,机器人负责搬运,洗衣机负责清洗,再配合叠衣、晾衣设备,拆分任务后机器人难度降低,落地会更快。

问题3:关于具身产业目前面临的痛点堵点和卡点,各位看到的实际情况是怎样的?

杨继峰工业领域的核心卡点是现有体系没被 AI 重构,轮式双臂机器人要落地,得适配老的数字化系统。而且上下料这类场景,需要机器人有柔性操作能力,现有设备泛化性不够,还得搭建垂直领域的整套数据、模型和算法框架,不能靠通用技术,前期投入大、周期长。

李凯最大的堵点是价值匹配和全生命周期运营。像轴承厂的案例,技术指标没超过人工(检出率、速度),还解决不了故障率和备份问题,就没商业价值。很多时候技术能实现,但成本、稳定性、后续维护跟不上,甲方就不愿意买单。另外,高复杂度场景对技术要求高,高危险场景又需要定制化改造,规模化难。

于蓉蓉消费端的痛点是功能价值占比太低,核心技术(比如触觉)还没突破,导致机器人做不了太多实用任务。而且用户对情绪价值的需求因人而异,很难标准化,产品迭代要平衡功能和情绪,还要控制成本,不然价格太高没人买。

蒲天骄电力行业的卡点是安全可靠性要求极高,机器人自主识别和精准操作的准确率得持续提升,现在 90% 还不够,要做到万无一失。另外,行业大模型和机器人本体的协同还需要磨合,不同变电站、线路的场景差异大,通用适配难度高,定制化成本也高。

曹满胜产业端的痛点是机器人的自主判断和复杂操作能力不够,现在还停留在固定任务阶段,没法应对多变场景。而且用户对具身智能的期待高,但实际能落地的功能有限,价值释放不出来,就形成了 “需求强但买单弱” 的循环。还有,不同行业的场景碎片化,很难形成规模化应用,成本降不下来。

黄鹏工业落地的卡点是场景再造难,像夹说明书、扣纸盒这些看似简单的操作,机器人的精度和准确率都达不到人工水平,得加辅助装置才能推进。而且数据标准化难,不同场景的数据格式不一样,模型微调周期长,技术验证到商业验证的跨度大,中间容易卡壳。

张名举家庭场景的最大堵点是场景过度复杂与个性化,远超单个机器人的泛化能力边界。现有家电生态并非为机器人协同而设计,构建新生态需跨界合作。同时,用户“万能助手”的高期待与产品有限功能之间的落差,也制约了产业发展。

内容中包含的图片若涉及版权问题,请及时与我们联系删除