2026年6月13日,智源大会“具身智能与人形机器人”分论坛在畅春厅举行。论坛由银河通用创始人兼首席技术官、北京大学研究员王鹤,智源具身模型研究中心负责人王鹏伟共同担任论坛主席。作为已连续举办至第四届的具身智能分论坛,本场会议呈现出一个清晰变化:具身智能已不再停留在“机器人会不会动”的展示阶段,而是进入世界模型、VLA/WAM、强化学习、数据飞轮、仿真引擎、触觉与灵巧手、本体系统工程等技术百花齐放、共同竞争和融合的新阶段。


上午场围绕具身基础模型、世界基座模型、持续学习、柔顺控制、灵巧手与通用人形方法展开,下午场进一步讨论人形机器人的“AlphaGo时刻”和“ChatGPT时刻”、具身大模型Scaling、仿真驱动自进化、全身小脑、human-centric data与通用物理智能。十二位嘉宾来自智源研究院、高校、研究机构与具身智能企业,他们的讨论共同指向一个核心问题:机器人要真正进入千行百业,仅有语言理解、视觉识别或单项运动能力并不够,必须在数据、模型、本体、控制、传感和部署闭环之间形成可持续扩展的系统。


王鹏伟:ORCA以“下一真实状态预测”学习物理世界

王鹏伟以智源具身模型研究中心的ORCA世界基座模型为主线,提出具身智能正处在AI从数字世界向物理世界跃迁的关键阶段。此前,智源已发布RoboBrain系列具身大脑与RoboBrain-XRoboBrain-Dex等具身小脑模型,分别提升多机任务规划、空间推理、闭环反馈、3D空间理解、时序价值判断和灵巧手控制能力。但王鹏伟认为,当前模型仍主要停留在理解世界或模仿动作层面,对未来状态、因果关系和物理规律的建模不足,因此需要更通用的世界基础模型作为底座。

他将现有路线概括为四类:以语言为中心的模型学到语言描述的世界,以像素为中心的模型学到视觉统计相关性,以动作为中心的模型强调输出动作而不一定理解世界,以视觉表征为中心的模型能够表征客观视觉但未必等同于物理世界。真正面向物理AGI的世界模型,应能在多模态信号中形成统一状态表征,并学习状态如何在真实世界中演化。ORCA的核心范式因此被定义为next real state prediction,即根据当前state和前置条件预测未来state

王鹏伟用无意识学习有意识学习解释ORCA的训练逻辑。无意识学习对应婴儿在语言前通过连续观察世界变化形成直觉,模型从稠密视频中学习自然状态转移,不强调像素级重建,而是在latent层面拉起状态转移空间。有意识学习则对应人类通过语言和事件理解世界:给定当前状态与事件描述,由因推果预测未来状态,或由果溯因推断过去发生了什么。前者关注稠密连续变化,后者关注语义化、稀疏的关键状态转移,两者共同构成类似人类的世界学习过程。

数据方面,ORCA预训练使用约12.5万小时互联网上多来源视频的数据;同时构建约1.3亿条事件级状态转移数据支撑有意识学习,并加入因果VQA和通用VQA,使模型可在语言层输出世界理解。后训练时,ORCA冻结主干,只训练轻量解码器,可接LM head生成文本,接MMDiT生成图像,也可接动作专家模型生成机器人动作。

 LanguageVisionAction三个方向上,王鹏伟强调ORCA关注的不是图像好不好看,而是状态转移是否符合物理规律。在语言评测中,ORCA主要提升状态转移和时序理解能力;在视觉预测中,它重构了评测基准,检验预测结果是否物理一致;在动作层面,ORCA预训练阶段没有使用真机action标签,仅通过少量后训练数据,就在场景泛化和物体泛化任务中取得较好表现。王鹏伟总结,未来世界基座模型还需引入音频、触觉、力、光、热等更丰富信号,发展原生世界模型、高效视频压缩、多智能体latent协同、更完善评测体系和自进化能力,并最终从具身智能拓展到科学智能、微观量子、宏观宇宙和生命科学等更广阔领域。

赵行:VLAWAM最终将走向统一

赵行围绕多模态具身基础模型讨论VLA和世界动作模型WAM的关系。他指出,2026年具身智能领域最核心的争论之一,是VLAWAM哪条路线更适合作为机器人基础模型。两者输入都包括视觉和语言,输出都包括动作,WAM还可输出视觉;模型结构也都大量使用Transformer。差别主要在训练目标:VLA往往从VLM扩展而来,接入动作头并以动作监督为核心;WAM则更多借助视频生成或未来状态预测信号,使模型学习空间、时间和动力学表征。

赵行并不认为二者是相互替代的关系。他首先重新评价自回归VLA路线。过去,RT-1RT-2OpenVLA等自回归模型效果有限,后来Pi0Pi0.5推动了diffusion VLA成为主流。但他认为自回归路线仍值得下注:一是训练和收敛速度可能更快;二是可以直接继承语言模型和视觉语言模型中的思维链、in-context learningsteering等能力;三是语言模型预训练带来的零样本泛化能力,在diffusion模型中并不自然。

自回归VLA的关键瓶颈是action tokenizer。语言天然离散,而机器人动作是连续控制信号,如何把细微动作转化为模型易学的离散token,等同于让语言模型学习一门动作外语。赵行介绍,早期直接量化连续动作会带来冗余序列,VAE/VQVAE又可能损失重建精度。FASTerVQ把动作在时间维和自由度维展开为二维矩阵,借鉴图像压缩与RVQ思想进行压缩和量化,在主流VLA上可提升控制频率和模型效果。

进一步地,赵行指出,action tokenizer不应只追求重建精度,还应优化模型学习友好性。他提出从条件熵角度重新设计action codec,关注稳定性、容量、语义对齐和跨本体迁移。模型通过soft prompt输入机器人ID、控制频率、任务和数据集信息,再结合时间位置编码,压缩为定长action token,并用重建损失、扰动稳定性损失、CLIP对齐损失和正则项共同训练。基于这一tokenizer,星海图构建G0.5基座模型:模型不再额外使用action head,而是将动作作为新的词表,统一纳入自回归stream,使同一套参数同时承担视觉处理、语言推理和动作输出。

WAM方面,赵行回顾了从UnipiDreamZeroLingbot-VA等工作的转变。早期框架先生成未来图像,再用逆动力学模型解动作,缺点是视频生成质量会直接影响动作质量;新近工作则将视频生成模型与action expert端到端联合训练。赵行认为,WAM真正重要的不是推理时显式生成未来视频,而是训练时通过未来视频监督学到更好的表征。实验显示,推理时不显式预测未来视频,反而可显著提升速度,性能未必下降。他最终判断,VLA的语义泛化能力和WAM的空间、时间、动力学能力将逐步融合,未来会出现更统一、更高效的具身基础模型。

罗剑岚:真实部署中的数据飞轮决定机器人持续学习

罗剑岚从物理AI”在计算史中的位置切入,认为过去百年计算主要解决信息处理问题,而物理AI第一次把动作、推理和决策闭环地带入真实世界。家庭机器人迟迟没有真正出现,背后并非单一算法问题,而是Moravec悖论所揭示的深层困难:对人类看似简单的搭积木、操作物体等能力,来自漫长进化和海量身体经验;对机器人而言,真正稀缺的是物理世界经验数据。

他将自动驾驶作为参照。特斯拉从规则式Autopilot演进到端到端FSD,核心并非一次算法突破,而是长期部署形成的数据飞轮:车队在真实世界中运行,数据回流训练模型,新模型再下发到车队采集更长尾的问题。机器人虽然与汽车不同,但同样需要预训练模型部署到机器人群体,产生真实物理经验,后训练提升模型,再部署更多机器人的闭环。没有部署就没有数据,没有数据就难以训练更好的模型,这是具身智能的鸡生蛋问题。

罗剑岚介绍了T0-WM,一个在真实世界数据上训练的开源具身世界模型。该模型使用约27000小时数据,包括18000小时真机数据、6500小时UMI数据和3000小时ego-scene数据,包含VAMACVS两个模块。VAM直接根据输入预测未来动作;ACVS则像仿真器,给定当前状态和候选动作,推演未来结果并给出评分。在简单任务中,VAM可直接输出动作;在长程操作等复杂任务中,模型可先由VAM提出多种动作,再由ACVS预测结果并排序,形成test-time computation,即先想后做

他特别强调,真实世界不是静态测试集。传统机器学习常假设训练集和测试集固定,但机器人部署后会不断遇到target distribution中的新场景、新物体、新失败模式,因此必须在目标分布上进行后训练。回流数据中并非只有成功轨迹,失败、部分干预、人类接管等数据往往更有价值,因为它们直接暴露模型不会做什么。自动驾驶中,高速直行数据价值有限,真正重要的是立交桥、复杂路口等长尾案例;机器人同样需要从失败和恢复中学习。

为处理异构回流数据,罗剑岚介绍了LWD分布式真机强化学习算法。其核心是先离线预训练actorsupport较广的value function,再将模型部署到真实机器人集群中进行在线后训练。value learning不再只学习标量价值,而是学习完整return分布,以保留多峰结果;policy extraction则通过adjoint matching,把不稳定的Q函数梯度优化转为更可扩展的逐步回归问题。在榨果汁、泡工夫茶、调鸡尾酒、装鞋盒等35分钟长程任务中,16台机器人集群可将base policy的成功率从约50%70%提升到接近100%。他判断,未来机器人研究重点会从预训练逐步转向后训练,如何划分pre-trainingmid-trainingpost-training,如何把真实物理经验转化为能力,将成为根本科学问题。

塞图·维贾库马尔:高鲁棒机器人不能只靠堆数据

塞图·维贾库马尔在报告中指出,机器人与AI领域在追逐VLAWAM等新范式时,也应回到过去二三十年积累的机器人学习、最优控制、模仿学习、策略搜索和动力学建模理论。他认为,端到端大模型和算力扩展确实带来新机会,但机器人并不是纯信息空间问题。只要任务涉及多物体、多接触、未知负载和力交互,仅依赖离线数据很难覆盖所有状态,必须引入物理先验和显式归纳偏置。

他以海上油气平台缩比模型中的四足操作机器人为例,展示机器人如何在遥操作和自主模式之间无缝切换,完成旋转阀门、拨动开关、开门、搬运未知重量料桶等任务。这个案例的关键不在单个动作,而在冗余自由度下的全身受力决策。同一任务可以有无数可行方案,机器人不仅要控制机械臂和末端执行器,还要根据支撑面、机身姿态、足底受力和外部扰动动态调整全身动作。

塞图指出,未来机器人系统必须具备自适应行为和自适应参数调节能力。例如机器人搬运瓶子时,即使末端轨迹相同,站立地面材质不同,也会导致全身姿态和腿部动作完全不同。涉及力交互的高动态任务不能只看视觉目标,还要在线估计接触、负载、不确定性和稳定性边界。

为此,他提出两类核心工具。第一是非欧几里得空间中的状态表征,将点云和传感信号抽象为拓扑可行区域,而不是直接依赖原始传感器数据。拓扑结构可帮助机器人判断落脚区域、运动可行性和全身受力规划。第二是可变阻抗和柔顺控制。机器人在完成不同任务时,不能保持固定刚度,而应动态调节刚度与阻尼:在需要安全交互时保持柔顺,在需要高动态动作时通过刚度调节注入能量。

他进一步指出,世界动作模型、轨迹优化和许多现代机器人策略,都可纳入最优控制框架:系统包含被控对象动力学模型,控制目标函数可视作世界模型中的自监督损失,最终求解非线性优化问题得到控制序列。这一框架与马尔可夫决策过程、概率图模型和多尺度规划可以统一。对通用人形机器人而言,神经动力学模型和环境世界模型很重要,但力信号、触觉传感和柔顺控制同样是完整世界模型不可缺少的部分。机器人未来不应在纯学习经典控制之间二选一,而应把数据驱动、物理先验、模型优化和人在环控制结合起来。

夏华夏:灵巧手自进化要从动作原语和装配闭环开始

夏华夏从冯诺依曼提出的自复制机器问题切入:能否设计一台机器,让它制造任意机器,甚至制造与自己同样复杂的机器?逻辑上这一问题早已可证,但物理实现始终困难。落到具身智能,若机器人要制造机器人,就绕不开装配、走线、插接、拧螺丝、柔性物体处理等大量人类轻松完成而机器极难处理的任务。

他指出,许多当前demo使用夹爪,是因为夹爪更易控制,但真正装配任务中大量操作必须依赖多指灵巧手。灵巧手的问题在于自由度高、硬件类型多、控制复杂:不同灵巧手可能有直驱、连杆、腱绳等不同技术路线,有不同尺寸、自由度、触觉和力矩传感配置。如果上层算法每次都要直接控制十几个甚至二十多个关节,系统开发难度会非常高。因此,灵心巧手希望抽象出一层灵巧手动作原语,把抓、握、捏、搓、按、手势等常见动作封装起来,将关节、触觉、力矩等复杂信息隐藏在原语内部,让上层算法开发者更容易使用。

夏华夏将系统分为多个层次:最底层是灵巧手动作原语,主要处理单手动作;再往上是结合手臂和环境的skill层,例如pickinsertscrew等;更高层则通过skill编排形成长程装配任务。动作原语并不是固定脚本,而要结合触觉和力矩反馈,使手能在不同本体和物体状态下稳定完成目标动作。团队计划开源手层面的动作原语库,并逐步推进更高层skill库。

围绕让灵巧手学会制造自己,夏华夏强调,近期目标并不是直接完成完整自复制,而是先提高长程装配可靠性,扩大技能库,推进从子装配到更完整装配闭环;中远期则逐步提高电子元器件、部件和系统层面的闭环比例。这个过程也提出一系列挑战:机器人本体存在制造误差、使用磨损、温度变化等硬件误差,软件必须自动容错;长程装配涉及多层动作边界与粒度定义;如果未来机器人可以制造或复制机器人,还必须考虑自我复制失控风险。

在观众提问中,夏华夏进一步区分自复制自进化。自复制是制造与自己复杂度相当的机器,而自进化则是制造比自己更复杂、更精巧的机器。数字世界中的AI模型已经在一定程度上具备自我迭代能力,但物理世界的硬件本体尚未进入同样的进化过程。灵巧手如果能够制造更复杂的灵巧手或机器人部件,才可能让物理世界的硬件系统进入自进化链条。这一路径很难,但也正是具身智能区别于纯数字智能的深层价值。

王东林:通用人形机器人需要运动和操作一体化

王东林从机器人产业演进出发,将具身智能分为几个阶段:早期工业机器人主要解决效率问题,依赖传统机械控制和固定视角编程;之后出现带感知、规划和决策能力的服务机器人,如扫地机器人、酒店配送机器人等;进入大模型时代,行业开始追求大脑认知、小脑控制和本体硬件的深度融合。通用智能机器人不仅需要会动,还要在真实物理交互中完成运动与操作一体化。

他认为,通用机器人面临两个基础问题:通用本体是什么,通用算法是什么。若要同时具备操作和较强运动能力,人形机器人仍是最有可能的本体方向。算法上则需解决通用运动和通用操作两大模块,并最终把二者整合成真正的人形大模型。西湖机器人围绕这一目标设计了西湖O1人形本体,同时推进通用运动大模型和通用操作大模型。

在通用运动方面,王东林介绍了GAE模型。人形机器人相比四足或鸵鸟腿机器人更复杂,因为上半身有手、下半身有足,还涉及平衡和高维控制空间,传统控制难以建模。团队早期尝试Humanoid-VLA,但由于数据不足,后来先聚焦运动本身,抛开视觉做GAEGAE目标是让人形机器人能够完成正常人能做的大多数动作。其训练流程包括采集和增强大规模动作数据,将其映射为标准人类SMPL表示,再映射到不同尺寸的机器人骨架;随后通过生成器和执行器两阶段训练,使机器人既能获得物理可信轨迹,又能在随机化和噪声中保持鲁棒性。

王东林特别强调部署中的时延问题。通信、感知、推理都会产生延迟,尤其在真机人形上不可忽视。团队通过提前将未来状态作为输入来补偿时延。GAE发布后已展示单人动作跟随、群控、手部动作和春晚部署等能力,说明通用运动模型可在不同机器人上快速部署。未来GAE还可与视觉、多模态大脑、VLA和世界模型结合,进入工厂等真实操作场景。

在通用操作方面,王东林认为VLA本质上是model-free policy,在大规模数据下仍有发展空间。下一步可沿模仿学习继续扩展,也可引入离线强化学习,因为模仿学习最多学到和数据一样好,而强化学习有机会超过数据。对于WAM,他将其视为迁移学习:视频生成模型是源域,机器人动作是目标域,二者分布重合越多,迁移越有效;若重合不足,则可能负迁移。因此,真正的physical world model大概率仍需企业主导的大量工程与真机数据。团队提出的WAV,即world value action model,在未来轨迹生成中加入价值模块,用累积奖励评估轨迹,再调整动作生成,试图把世界模型、价值函数和动作策略结合起来。王东林判断,VLA和世界模型真正通用化需要数年时间,但其中可能出现新的技术、产品和场景闭环,成为机器人产业规模化落地的关键。

王鹤:人形机器人的AlphaGo时刻与ChatGPT时刻

王鹤在下午场以推动人形机器人的AlphaGoChatGPT时刻为题,提出通用机器人应像人一样拥有能融入人类社会的身体,也拥有大脑和小脑协同结构。数字智能先经历AlphaGo在专精任务上的突破,再由GPT系列通过Scaling走向通用,最终在ChatGPT中让普通用户直接感受到能力跃迁。具身智能同样需要先在足够复杂、足够代表性的任务上突破专精,再走向通用。

银河通用选择打网球作为人形机器人的“AlphaGo时刻候选任务。王鹤认为,网球需要高动态全身控制、手腕精细控制、击球策略、空间判断和高低层能力协同,比许多表演类动作更能检验人形机器人是否具备复杂运动智能。团队通过人类运动员动捕获得运动先验,将其retarget到人形机器人上,学习CVAE motion prior,再在latent space中进行强化学习,使机器人动作保持在人类运动分布内并加速收敛。手腕控制因精度要求极高,被单独端到端建模。最终系统可实现与人类数十拍对打,验证了sim-to-real在高动态任务中的可行性。

在灵巧手方面,王鹤介绍了DexNDM神经动力学模型。灵巧手任务高度contact-rich,单靠仿真强化学习难以跨越sim2real的鸿沟。银河通用先在仿真器中学习策略,再回收真实世界数据训练灵巧手神经动力学模型,用它弥合仿真与真实差异,并反向更新policy。由此实现转笔、手内重定向、工具使用等任务。他认为,灵巧手的真实突破不应是遥操数据模仿出来的僵硬动作,而应通过强化学习学出像人一样高效、连贯的多指协同。

通往具身“ChatGPT时刻,王鹤提出AstraBrain架构:既有大脑,也有小脑,中间通过类似脑桥的结构连接,使慢速高层规划与快速低层控制异步协同。大脑部分采用WAM,将VLA的显式动作监督与视频生成/世界模型的无标签视频学习结合起来。无标签egocentric视频可覆盖更低成本、更广任务空间,视频中的未来图像或latent representation可隐含动作信息,因而释放了纯视频数据在具身基础模型Scaling中的价值。AstraBrain WAM0.5进一步在latent space而非RGB space中进行想象,降低光照、纹理等无关因素干扰,更聚焦动作和几何。

小脑方面,AstraBrain WBC基于HumanoidGPT,用20亿帧人类motion capture数据训练causal transformernext action predictor,实现全身遥操和通用运动控制。王鹤还提出WAM-TTT,使普通用户只需在客户现场拍摄一段无标注视频,即可用video prediction loss把数据中心训练的模型适配到具体场景。HumanoidNDM则面向终身学习:机器人因磨损、负重或环境扰动导致动力学变化时,可在真实世界练习、回收数据、更新世界模型和policy,用约20分钟恢复能力。他判断,一旦具身基础模型具备70%80% zero-shot成功率,并具备低门槛部署能力,行业将迎来真正的ChatGPT时刻。

高阳:具身智能的关键是把AI5分推到50

高阳以重塑物理世界,打造机器人通用大脑为主题,提出具身智能和人形机器人将打开万亿乃至十万亿级市场。相比工业机器人、扫地机器人、手机和汽车,人形通用机器人最终可能走进家庭和各类工作场景,替代大量体力劳动。当前硬件并非完全不可用,机械臂、轮式底盘等在过去几十年中已有较高成熟度,但机器人大脑能力仍然偏低。高阳认为,行业短期目标并不是直接达到100分通用智能,而是将软件智能从5分提升到50分,就能解决大量真实需求。

千寻智能的核心关注是具身大脑。高阳指出,过去两年行业最大的变化,是具身智能Scaling Law已在中等规模上得到验证:预训练数据越多,为特定任务达到目标成功率所需的后训练数据越少。这个规律意味着,通用预训练并非空泛概念,而是能降低边际部署成本。未来若要让10%的人或岗位被机器人替代,关键在于构建能够持续吸收多样数据、快速适配任务的基础模型。

高阳强调,具身智能的数据金字塔正在形成。从真机遥操数据,到UMI数据,再到人类第一视角视频,数据形态在过去两年快速变化。大规模人类数据成为预训练共识,但如何让模型真正从中学到物理世界理解、视觉信息、未来状态、latent space和动作输出,仍是核心难题。他认为,VLA在长程任务和语言条件控制上有优势,但在物理理解和泛化上不足;WAM/VAM通过未来画面或状态预测缓解动作泛化问题,但视频生成不等于视频理解,如果目标只是学习像素统计,模型仍可能缺少物理属性理解。

为此,高阳更倾向于把下一状态预测放在隐空间而非像素层面。隐空间未来状态预测可形成更好的物理抽象,避免视频生成模型只追求像素分布拟合。与此同时,单纯JEPAlatent prediction也不够,因为它能预测门打开后是什么样,却未必知道什么动作能让门打开。具身模型必须把对未来状态的预测与动作预测结合起来,形成多模态sequential modeling。换言之,语言、视觉、动作、触觉等信息都应进入统一的序列建模框架。

在圆桌中,高阳进一步提出具身通用化可分为两个阶段。第一阶段是引导程序阶段,通过互联网视频、可穿戴设备和in-the-wild数据预训练,使模型在新场景的后训练成本下降到分钟级。达到这一点后,任何任务只要值得做,就能以低边际成本微调部署。第二阶段才是大规模真实部署,数千万乃至上亿台机器人在真实世界工作并回流数据,形成数据飞轮。他认为,未来1224个月具身基础模型会出现显著进步,边际部署成本快速下降,进而开启产业繁荣的早期阶段。

卢宗青:具身基础模型仍缺少公认训练范式

卢宗青从过去两年具身模型路线变化出发,指出具身智能的根本问题仍是基础模型没有真正解决。VLA试图把语言模型能力扩展到动作模态,使机器人可根据视觉和语言输出动作。它的优势是任务规划和语言条件控制,但缺点同样明显:物理理解不足、物理对齐能力弱,且容易过拟合下游任务。与语言模型SFT后仍可回答大量问题不同,当前VLA如果没有在特定任务上采过数据,往往缺少真正泛化能力。

2025年起,行业开始转向video action modelWAM,希望通过同时预测未来画面和动作来改善泛化。但卢宗青提醒,视频生成并不等于视频理解。视频生成模型主要学习像素统计分布,生成结果可能看起来合理,却不符合物理属性。把这类模型直接作为WAM backbone,仍会面临物理理解不足的问题。因此,他主张把下一状态预测放在latent state中,而不是像素层面,以获得更抽象、更物理相关的表征。

latent预测本身也会遇到坍塌和动作缺失问题。卢宗青介绍,其团队设计了posterior branchprior branch结构:posterior branch对视频编码,类似JEPA;但与JEPA不同,模型还要输出动作,动作预测成为额外监督信号,迫使latent保留对机器人控制有用的信息,从而降低表示坍塌风险。也就是说,机器人基础模型不能只学世界会怎样变化,还必须学什么动作会导致这种变化。

在他看来,真正具身基础模型应在预训练后具备一定能力,再通过后训练泛化完成各种任务。而当下多数系统仍只是在下游任务中过拟合,缺少模型层面的泛化。数据层面可能已经逐渐收敛到大规模human videoUMI、遥操和真机数据混合的方向,但训练范式仍远未收敛。如何通过多模态序列建模同时学习物理世界理解和交互能力,是未来几年的关键科学问题。

卢宗青还强调,触觉对操作任务必不可少。语言模型预训练后天然获得一定能力,是因为文本空间中大量知识和任务都在同一模态中;具身模型则必须面对视觉、动作、触觉、本体状态和环境反馈之间的耦合。JEPA式方法是否足够,如何把触觉、动作和视觉统一建模,仍需要长期探索。他在圆桌中判断,未来23年具身基础模型会取得较大进展,但通用基础模型未必会在两年内出现。学术界应探索新的学习范式,工业界则需要把有希望的范式在大规模数据和算力下真正迭代出来。

穆尧:生成式仿真将开启具身自进化

穆尧以生成式仿真驱动的具身智能自进化系统为主题,讨论世界模型、生成式仿真、强化学习和具身操作系统如何共同构成自进化闭环。他首先指出,2026年可视为具身智能数据规模化元年。遥操数据、UMI数据、人类视频和数十万小时级数据集推动WAM成为重要范式。但如果WAM依赖大体量video generation模型同步生成动作,推理频率就会被拖慢,难以满足机器人高频控制需求。

为解决这一矛盾,穆尧提出AHA-WAM,希望让大体量WAM达到50Hz以上推理频率。核心问题是异步:视频生成可以慢速更新,但动作控制必须高速响应;慢速视频生成和当前观测之间会出现相位偏移,导致指导信息失效。团队通过轻量query token更新视频模型KV cache中对动作生成真正有用的信息,以高频、低成本方式弥补相位偏差。这样,云端可运行更强视频生成模型,端侧则保持快速动作更新。

他认为,WAM模仿学习在大规模数据下已取得重要进展,但仍不足以支撑真正自我进化。真机实验中,模型一旦抓偏、触发失败,往往无法像人一样恢复,因为模仿学习难以覆盖反事实推理空间。具身自进化系统至少需要三个模块:一是足够逼真且能生成多样环境的world model,供智能体交互;二是通用进展评估模型,为任务提供即时reward,而不必为每个任务手写奖励函数;三是强有力的基础模型学习方法,能利用物理交互和即时reward进行强化学习。

在可交互环境方面,穆尧强调2D视频生成不足以支撑机器人交互,因为人类和物理世界的交互本质发生在3D空间。因此团队构建多视角2D3D联合生成的world model,可生成多视角RGBpoint mapdepth map等表征,提高视角一致性。更进一步,许多操作任务需要精细力和触觉模拟。例如拧试管涉及静摩擦、动摩擦、逐步增大的接触力,这类信息难以从普通人类视频中获得。团队因此开发视触觉和力的仿真平台,并通过精细物理资产标注、10万级物体资产和3D affordance标注,为触觉预训练和力控任务提供数据。

在动作生成方面,穆尧比较了自回归和flow matching/diffusion路线。自回归可计算精确log probability,但对连续复杂轨迹容易产生累积误差;diffusion表达能力强,但动作对数概率难以精确计算,不便接入强化学习。团队提出离散扩散动作生成,兼具全局视野、迭代优化和可计算log probability,可与PPOGRPO等强化学习方法适配,并通过自适应去噪步数在效率和性能之间平衡。最终,穆尧设想的RoboEvolve/RoboClaw系统,是由Agent驱动数据采集、policy训练、失败恢复、人类接管和数据回流的闭环操作系统。具身智能要超越模仿,必须让机器人在世界引擎中不断试错、恢复和进化。

李弘扬:全身小脑和体育任务是具身智能的重要试金石

李弘扬在报告中有意避开热门VLA和世界模型,转而讨论“Humanoid for sports”和全身小脑。他认为,机器人系统不能只看上半身manipulation,也不能只看炫酷表演。真正难的问题往往不在公众觉得酷的功夫或跳舞,而在研究者眼中更基础、更困难的全身协调:开重门、侧身穿过狭窄空间、搬运箱体、踢球、打乒乓球等任务,都要求上半身、下半身、感知、平衡和环境交互协同。

他将机器人系统拆分为算法、数据、硬件、评测和基础设施多个层面。算法内部又包括manipulationlocomotionnavigationdexterous hand等不同方向。过去一年,小脑相关工作发展迅速,如动态平衡、抗摔、物体交互、全身tracker等,但许多工作仍缺少真正泛化能力。李弘扬强调,具身研究不应被VLAWAM等单一热点裹挟,触觉、电子皮肤、传感器、全身协调、系统级评测同样是高价值方向。

他提出,体育任务是研究全身智能的理想场景,因为sports具有结构化规则、强交互、重力和摩擦等物理变化,且可通过动捕获取人类运动数据并迁移到人形机器人上。体育任务既需要小脑执行稳定运动,也需要大脑做策略判断,是大小脑协同的天然测试场。李弘扬用强交互、可泛化、高智能概括Humanoid for sports的三个关键词,并呼吁20262027年更多研究者投入滑板、羽毛球、乒乓球、足球等任务,训练universal trackerpolicy

在乒乓球项目中,团队希望摆脱昂贵的motion capture系统。训练时可使用动捕获得reference motion,但部署时应依赖机器人自身主动视觉或被动视觉定位球的位置。系统pipeline包括采集human motions、训练reference motion、从人到机器人重映射、强化学习训练whole body control、必要时加入遥操作和全身操作。乒乓球任务中,主动视觉、sim-to-real、感知、全身协调都非常关键。李弘扬坦率指出,扣杀等高动态动作目前仍处于实验室阶段,十次成功两三次就是领域现实;但双打、旋转球识别、多人协同等问题仍有大量值得研究的空间。

足球项目则强调任意位置射门和守球。机器人不仅要跟踪动作,还要根据目标位置、球的位置和力度变化做适应。当前系统中球的识别仍依赖涂层、雷达等工程方案,脚部没有触觉传感也限制了力度建模。李弘扬最后提醒,当前benchmark存在严重问题,单看success rate不足以评价机器人智能;研究者应关注更多evaluation metricssystem level问题和真实交互能力。他认为,具身智能最重要的是机器人和物理世界发生交互,传感器、触觉、力控、全身系统工程,往往比在噪声很大的榜单上刷一点分更有长期价值。

丁文超:通用物理智能必须打通数据、模型与硬件

丁文超以它石智航TARS的实践说明,具身智能的Scaling Law并没有秘密,但必须同时解决数据、模型和物理硬件三角。自动驾驶行业已经进入数据较充分、比拼模型和test-time compute的阶段,而具身智能仍处在data scaling都没真正做好的早期。TARS从创立之初就围绕DataAIPhysics布局,强调human-centric dataAWE/world action model以及硬件与应用闭环。

丁文超首先反驳“ego-centric只能学趋势、不能学精细操作的看法。他展示的线束、插接等长程柔性高精度任务,要求机器人在毫米甚至亚毫米级别持续操作,并能在扰动后自我微调。传统工业自动化已解决大量刚性、规则任务,下一代具身智能应解决柔性物体、动态步骤和长程任务的交集,例如线束、穿针引线、刺绣、收纳、拉拉链等。

TARS的数据路线是human-centric data,而不只是普通ego-centric video。人佩戴第一视角摄像头、手套、末端触觉等设备采集数据,机器人端则拥有对应的夹爪、灵巧手和触觉反馈。这样可形成从人到机器人更对称的数据结构。丁文超强调,vision-only ego-centric缺少末端feedback,难以知道是否接触、是否夹住、是否滑动;加入触觉和末端反馈后,模型能更高效地学到柔性和接触任务的关键模式。团队还构建云端AI自动标注流程,将videoactiontactile转化为模型训练所需的taskspatialtrajectory等结构化信息。

在模型层面,丁文超认为架构细节不是唯一重点,更重要的是模型具备哪些能力。跨本体、触觉建模、高频动作输出、长程柔性任务恢复,都比单纯更换backbone更关键。他特别强调触觉:触觉本质上也可看作一种图像信号,能与视觉共同进入world model。在很多任务中,模型需要通过末端反馈做细微角度调整和柔性适应,这对cross embodiment鲁棒性至关重要。

关于控制频率,他指出许多WAM/VLA demo不展示1倍速,是因为动作不够顺滑、频率不足。TARS通过在latent space中建模action,使视频流和动作流解耦频率,在同一模型内提升action chunk decoding频率,可达到2030Hz甚至更高。丁文超认为,具身模型是system work,从数据到模型到部署缺一不可。硬件也必须进入闭环:关节扭矩、精度、脉动,采集末端、触觉、21自由度灵巧手、本体形态,都会影响模型最终表现。它石因此选择自研关键硬件,认为只有软硬件系统化优化,才能真正解锁人类水平的灵巧操作。他最后提出,未来三到五年行业应有更高心气,发展visionlanguageaction三种模态深度统一的具身原生基础模型,而不仅是把VLM或视频模型拼接到机器人动作上。

圆桌讨论:具身智能距离“ChatGPT时刻还差什么

下午场最后的圆桌由王鹏伟主持,王鹤、罗剑岚、高阳、卢宗青、穆尧、丁文超参与。讨论围绕具身智能的卡点、数据模型本体闭环、数据质量和未来三五年终局展开。

问题一:具身智能的核心卡点在哪里,能否复现大语言模型Scaling

王鹤认为,首先要定义什么是具身ChatGPT时刻。他提出两个指标:一是capability,即zero-shot完成普通人不需专门学习的技能,成功率达到70%80%;二是accessibility,即部署门槛足够低,普通人可用少量现场数据完成后训练并部署到饮料店、药房等场景。他判断WAM已经给出较清晰Scaling方向,因为它可同时吸收无action标签的人类第一视角视频和有标签robot data。若数据质量、硬件和大小脑协同持续迭代,未来两到三年有望突破。

罗剑岚提醒,语言模型的ChatGPT建立在静态、巨大、覆盖人类知识的文本预训练集之上,而机器人没有类似现成数据集。具身智能更可能出现deployment Scaling Law:随着第1000台、第1万台、第10万台机器人部署,新增部署和新增数据的综合成本呈对数下降。也许并不需要想象中的1亿小时、10亿小时数据,真实部署规模化后,数据飞轮会改变问题设定。

高阳将路线分成两阶段。第一阶段是引导程序,通过互联网视频、可穿戴设备数据等in-the-wild数据预训练,使新场景的后训练成本降到分钟级;第二阶段才是massive deployment,让几千万台、上亿台机器人在真实世界干活并回流数据。卢宗青则更谨慎,认为当前最大问题是泛化性尚未形成,数据层面可能逐渐收敛,但训练范式没有公认答案。穆尧补充,视觉泛化已有较大进展,但技能泛化、力触觉数据和精细交互仍是瓶颈。丁文超强调data efficiency,不只是数据量,还要衡量单位数据对智能提升的贡献。

问题二:数据、模型与本体应如何形成闭环?

王鹤认为,具身智能市场最终会形成产业链,但在突破ChatGPT时刻之前,创业公司必须把关键闭环掌握在自己手里。硬件中非平庸、别人做不好的部分,必须进入自己的数据和模型循环,否则会被速度拖垮。罗剑岚认为,当前硬件并不完美,但在一些半开放场景中已基本够用;真正决定性的是谁能在1218个月内跑通真实部署的数据闭环。对创业公司而言,快是核心优势。

高阳同意闭环优先。硬件、模型、数据都应服务于系统全生命周期:模型训出来后,在客户场景中会在哪里失败,系统最薄弱环节是什么,只有闭环跑通才知道。卢宗青则从商业选择角度指出,做本体、做数据、做模型可以分工,预训练基础模型并不必强耦合某一款本体;但公司在落地时仍需要通过特定场景商业化。穆尧从高校研究角度强调,即便不做完整本体,数采设备也必须自己掌握,否则传感器配置、视野、人与机器人配准等关键问题难以研究。丁文超则认为,硬件需要从一开始纳入系统优化,因为许多模型效果失败的根源在关节、相机、末端传感器和部署吞吐等冰面之下的问题。

问题三:数据质量、触觉和负样本如何进入训练体系?

高阳谈到,居家数据采集中会出现大量低价值、重复甚至无效行为,千寻智能构建自动监控系统和激励机制,用大模型实时指导数采员做出符合需求的行为,并不断把数据采集know-how写入流程。王鹤指出,从遥操、UMIego-centric,各类数据都有质量问题,raw data必须经过过滤、可视化排错、人工质检和大模型筛选。目前有效数据出产率不高,许多ego-centric供应商的数据质量良莠不齐,未来一两年行业需要形成更成熟的数据质检标准。

卢宗青更关注多样性。他认为预训练数据供应不应只按订单采特定任务,而应利用大量存量多样数据。随着京东、蚂蚁、美团等平台通过众包采集ego数据,行业可能很快拥有百万小时级数据,但文本标注和语义描述质量仍需标准化。穆尧和丁文超都强调触觉数据难度更高。穆尧认为力触觉数据不一定要追求绝对精确值,而应抓住趋势、跳变、零漂等关键指标;真正困难的是视觉、力、触觉多传感器同步。丁文超指出,很多无本体数采设备并未真正经过训练管线验证,多模态同步、末端反馈、传感器稳定性仍是巨大挑战;但未来12个月触觉硬件可能快速演进,力触觉会逐步成为高端操作任务的标配。

针对负样本和失败数据,罗剑岚认为,一旦机器人进入真实部署,成功、失败、人类干预、partial recovery都会自然出现。关键在于技术栈选择:如果相信未来90%能力来自预训练,只需少量后训练,就是一套路线;如果认为未来90%数据来自部署和探索,则需要完全不同的数据与强化学习技术栈。这个选择会深刻影响公司和研究路线。

问题四:未来三到五年,机器人行业会走向哪里?

王鹤认为,未来24个月最重要的是预训练与低门槛后训练能否突破,让机器人真正自主工作,而不是仅销售跑跳或预编程的人形机器人。他期待看到万台自主工作机器人出现,并认为这会成为具身ChatGPT时刻的重要信号。罗剑岚认为,短期1218个月的关键checkpoint是真实部署带来的数据闭环,无论是1000台还是1万台,只要不是0,就会带来行业信号;长期看,未来五到十年仍有大量根本科学问题待解。

高阳判断,未来1224个月具身基础模型会显著进步,边际部署成本下降,产业繁荣的开端会出现。卢宗青认为,未来23年具身基础模型会有大进展,特别是把物理世界理解和交互统一起来,因为当前视觉语言模型之所以理解不好,根本原因是没有在交互数据和环境中训练。穆尧最期待大规模经验数据的Scale-up,经验数据既可来自真机,也可来自world modelsimulator,目标是让智能体通过经验超越人类能力。丁文超则期待具身原生基础模型出现:不是简单把VLM变成VLA,或把视频模型拼成WAM,而是重新梳理visionlanguageaction三种模态,让具身智能拥有自己的原生模型范式。


大会回放 https://2026.baai.ac.cn

内容中包含的图片若涉及版权问题,请及时与我们联系删除