2026年6月13日，智源大会“具身智能与人形机器人”分论坛在畅春厅举行。论坛由银河通用创始人兼首席技术官、北京大学研究员王鹤，智源具身模型研究中心负责人王鹏伟共同担任论坛主席。作为已连续举办至第四届的具身智能分论坛，本场会议呈现出一个清晰变化：具身智能已不再停留在“机器人会不会动”的展示阶段，而是进入世界模型、VLA/WAM、强化学习、数据飞轮、仿真引擎、触觉与灵巧手、本体系统工程等技术百花齐放、共同竞争和融合的新阶段。

上午场围绕具身基础模型、世界基座模型、持续学习、柔顺控制、灵巧手与通用人形方法展开，下午场进一步讨论人形机器人的“AlphaGo时刻”和“ChatGPT时刻”、具身大模型Scaling、仿真驱动自进化、全身小脑、human-centric data与通用物理智能。十二位嘉宾来自智源研究院、高校、研究机构与具身智能企业，他们的讨论共同指向一个核心问题：机器人要真正进入千行百业，仅有语言理解、视觉识别或单项运动能力并不够，必须在数据、模型、本体、控制、传感和部署闭环之间形成可持续扩展的系统。

王鹏伟：ORCA以“下一真实状态预测”学习物理世界

王鹏伟以智源具身模型研究中心的ORCA世界基座模型为主线，提出具身智能正处在AI从数字世界向物理世界跃迁的关键阶段。此前，智源已发布RoboBrain系列具身大脑与RoboBrain-X、RoboBrain-Dex等具身小脑模型，分别提升多机任务规划、空间推理、闭环反馈、3D空间理解、时序价值判断和灵巧手控制能力。但王鹏伟认为，当前模型仍主要停留在理解世界或模仿动作层面，对未来状态、因果关系和物理规律的建模不足，因此需要更通用的世界基础模型作为底座。

他将现有路线概括为四类：以语言为中心的模型学到语言描述的世界，以像素为中心的模型学到视觉统计相关性，以动作为中心的模型强调输出动作而不一定理解世界，以视觉表征为中心的模型能够表征客观视觉但未必等同于物理世界。真正面向物理AGI的世界模型，应能在多模态信号中形成统一状态表征，并学习状态如何在真实世界中演化。ORCA的核心范式因此被定义为next real state prediction，即根据当前state和前置条件预测未来state。

王鹏伟用“无意识学习”和“有意识学习”解释ORCA的训练逻辑。无意识学习对应婴儿在语言前通过连续观察世界变化形成直觉，模型从稠密视频中学习自然状态转移，不强调像素级重建，而是在latent层面拉起状态转移空间。有意识学习则对应人类通过语言和事件理解世界：给定当前状态与事件描述，由因推果预测未来状态，或由果溯因推断过去发生了什么。前者关注稠密连续变化，后者关注语义化、稀疏的关键状态转移，两者共同构成类似人类的世界学习过程。

数据方面，ORCA预训练使用约12.5万小时互联网上多来源视频的数据；同时构建约1.3亿条事件级状态转移数据支撑有意识学习，并加入因果VQA和通用VQA，使模型可在语言层输出世界理解。后训练时，ORCA冻结主干，只训练轻量解码器，可接LM head生成文本，接MMDiT生成图像，也可接动作专家模型生成机器人动作。

在 Language、Vision和Action三个方向上，王鹏伟强调ORCA关注的不是图像“好不好看”，而是状态转移是否符合物理规律。在语言评测中，ORCA主要提升状态转移和时序理解能力；在视觉预测中，它重构了评测基准，检验预测结果是否物理一致；在动作层面，ORCA预训练阶段没有使用真机action标签，仅通过少量后训练数据，就在场景泛化和物体泛化任务中取得较好表现。王鹏伟总结，未来世界基座模型还需引入音频、触觉、力、光、热等更丰富信号，发展原生世界模型、高效视频压缩、多智能体latent协同、更完善评测体系和自进化能力，并最终从具身智能拓展到科学智能、微观量子、宏观宇宙和生命科学等更广阔领域。

赵行：VLA与WAM最终将走向统一

赵行围绕“多模态具身基础模型”讨论VLA和世界动作模型WAM的关系。他指出，2026年具身智能领域最核心的争论之一，是VLA与WAM哪条路线更适合作为机器人基础模型。两者输入都包括视觉和语言，输出都包括动作，WAM还可输出视觉；模型结构也都大量使用Transformer。差别主要在训练目标：VLA往往从VLM扩展而来，接入动作头并以动作监督为核心；WAM则更多借助视频生成或未来状态预测信号，使模型学习空间、时间和动力学表征。

赵行并不认为二者是相互替代的关系。他首先重新评价自回归VLA路线。过去，RT-1、RT-2、OpenVLA等自回归模型效果有限，后来Pi0、Pi0.5推动了diffusion VLA成为主流。但他认为自回归路线仍值得下注：一是训练和收敛速度可能更快；二是可以直接继承语言模型和视觉语言模型中的思维链、in-context learning、steering等能力；三是语言模型预训练带来的零样本泛化能力，在diffusion模型中并不自然。

自回归VLA的关键瓶颈是action tokenizer。语言天然离散，而机器人动作是连续控制信号，如何把细微动作转化为模型易学的离散token，等同于让语言模型学习一门“动作外语”。赵行介绍，早期直接量化连续动作会带来冗余序列，VAE/VQVAE又可能损失重建精度。FASTerVQ把动作在时间维和自由度维展开为二维矩阵，借鉴图像压缩与RVQ思想进行压缩和量化，在主流VLA上可提升控制频率和模型效果。

进一步地，赵行指出，action tokenizer不应只追求重建精度，还应优化模型学习友好性。他提出从条件熵角度重新设计action codec，关注稳定性、容量、语义对齐和跨本体迁移。模型通过soft prompt输入机器人ID、控制频率、任务和数据集信息，再结合时间位置编码，压缩为定长action token，并用重建损失、扰动稳定性损失、CLIP对齐损失和正则项共同训练。基于这一tokenizer，星海图构建G0.5基座模型：模型不再额外使用action head，而是将动作作为新的词表，统一纳入自回归stream，使同一套参数同时承担视觉处理、语言推理和动作输出。

在WAM方面，赵行回顾了从Unipi到DreamZero、Lingbot-VA等工作的转变。早期的框架先生成未来图像，再用逆动力学模型解动作，缺点是视频生成质量会直接影响动作质量；新近的工作则将视频生成模型与action expert端到端联合训练。赵行认为，WAM真正重要的不是推理时显式生成未来视频，而是训练时通过未来视频监督学到更好的表征。实验显示，推理时不显式预测未来视频，反而可显著提升速度，性能未必下降。他最终判断，VLA的语义泛化能力和WAM的空间、时间、动力学能力将逐步融合，未来会出现更统一、更高效的具身基础模型。

罗剑岚：真实部署中的数据飞轮决定机器人持续学习

罗剑岚从“物理AI”在计算史中的位置切入，认为过去百年计算主要解决信息处理问题，而物理AI第一次把动作、推理和决策闭环地带入真实世界。家庭机器人迟迟没有真正出现，背后并非单一算法问题，而是Moravec悖论所揭示的深层困难：对人类看似简单的搭积木、操作物体等能力，来自漫长进化和海量身体经验；对机器人而言，真正稀缺的是物理世界经验数据。

他将自动驾驶作为参照。特斯拉从规则式Autopilot演进到端到端FSD，核心并非一次算法突破，而是长期部署形成的数据飞轮：车队在真实世界中运行，数据回流训练模型，新模型再下发到车队采集更长尾的问题。机器人虽然与汽车不同，但同样需要“预训练模型部署到机器人群体，产生真实物理经验，后训练提升模型，再部署更多机器人”的闭环。没有部署就没有数据，没有数据就难以训练更好的模型，这是具身智能的鸡生蛋问题。

罗剑岚介绍了T0-WM，一个在真实世界数据上训练的开源具身世界模型。该模型使用约27000小时数据，包括18000小时真机数据、6500小时UMI数据和3000小时ego-scene数据，包含VAM和ACVS两个模块。VAM直接根据输入预测未来动作；ACVS则像仿真器，给定当前状态和候选动作，推演未来结果并给出评分。在简单任务中，VAM可直接输出动作；在长程操作等复杂任务中，模型可先由VAM提出多种动作，再由ACVS预测结果并排序，形成test-time computation，即“先想后做”。

他特别强调，真实世界不是静态测试集。传统机器学习常假设训练集和测试集固定，但机器人部署后会不断遇到target distribution中的新场景、新物体、新失败模式，因此必须在目标分布上进行后训练。回流数据中并非只有成功轨迹，失败、部分干预、人类接管等数据往往更有价值，因为它们直接暴露模型不会做什么。自动驾驶中，高速直行数据价值有限，真正重要的是立交桥、复杂路口等长尾案例；机器人同样需要从失败和恢复中学习。

为处理异构回流数据，罗剑岚介绍了LWD分布式真机强化学习算法。其核心是先离线预训练actor和support较广的value function，再将模型部署到真实机器人集群中进行在线后训练。value learning不再只学习标量价值，而是学习完整return分布，以保留多峰结果；policy extraction则通过adjoint matching，把不稳定的Q函数梯度优化转为更可扩展的逐步回归问题。在榨果汁、泡工夫茶、调鸡尾酒、装鞋盒等3至5分钟长程任务中，16台机器人集群可将base policy的成功率从约50%至70%提升到接近100%。他判断，未来机器人研究重点会从预训练逐步转向后训练，如何划分pre-training、mid-training、post-training，如何把真实物理经验转化为能力，将成为根本科学问题。

塞图·维贾库马尔：高鲁棒机器人不能只靠堆数据

塞图·维贾库马尔在报告中指出，机器人与AI领域在追逐VLA、WAM等新范式时，也应回到过去二三十年积累的机器人学习、最优控制、模仿学习、策略搜索和动力学建模理论。他认为，端到端大模型和算力扩展确实带来新机会，但机器人并不是纯信息空间问题。只要任务涉及多物体、多接触、未知负载和力交互，仅依赖离线数据很难覆盖所有状态，必须引入物理先验和显式归纳偏置。

他以海上油气平台缩比模型中的四足操作机器人为例，展示机器人如何在遥操作和自主模式之间无缝切换，完成旋转阀门、拨动开关、开门、搬运未知重量料桶等任务。这个案例的关键不在单个动作，而在冗余自由度下的全身受力决策。同一任务可以有无数可行方案，机器人不仅要控制机械臂和末端执行器，还要根据支撑面、机身姿态、足底受力和外部扰动动态调整全身动作。

塞图指出，未来机器人系统必须具备自适应行为和自适应参数调节能力。例如机器人搬运瓶子时，即使末端轨迹相同，站立地面材质不同，也会导致全身姿态和腿部动作完全不同。涉及力交互的高动态任务不能只看视觉目标，还要在线估计接触、负载、不确定性和稳定性边界。

为此，他提出两类核心工具。第一是非欧几里得空间中的状态表征，将点云和传感信号抽象为拓扑可行区域，而不是直接依赖原始传感器数据。拓扑结构可帮助机器人判断落脚区域、运动可行性和全身受力规划。第二是可变阻抗和柔顺控制。机器人在完成不同任务时，不能保持固定刚度，而应动态调节刚度与阻尼：在需要安全交互时保持柔顺，在需要高动态动作时通过刚度调节注入能量。

他进一步指出，世界动作模型、轨迹优化和许多现代机器人策略，都可纳入最优控制框架：系统包含被控对象动力学模型，控制目标函数可视作世界模型中的自监督损失，最终求解非线性优化问题得到控制序列。这一框架与马尔可夫决策过程、概率图模型和多尺度规划可以统一。对通用人形机器人而言，神经动力学模型和环境世界模型很重要，但力信号、触觉传感和柔顺控制同样是完整世界模型不可缺少的部分。机器人未来不应在“纯学习”与“经典控制”之间二选一，而应把数据驱动、物理先验、模型优化和人在环控制结合起来。

夏华夏：灵巧手自进化要从动作原语和装配闭环开始

夏华夏从冯诺依曼提出的自复制机器问题切入：能否设计一台机器，让它制造任意机器，甚至制造与自己同样复杂的机器？逻辑上这一问题早已可证，但物理实现始终困难。落到具身智能，若机器人要制造机器人，就绕不开装配、走线、插接、拧螺丝、柔性物体处理等大量人类轻松完成而机器极难处理的任务。

他指出，许多当前demo使用夹爪，是因为夹爪更易控制，但真正装配任务中大量操作必须依赖多指灵巧手。灵巧手的问题在于自由度高、硬件类型多、控制复杂：不同灵巧手可能有直驱、连杆、腱绳等不同技术路线，有不同尺寸、自由度、触觉和力矩传感配置。如果上层算法每次都要直接控制十几个甚至二十多个关节，系统开发难度会非常高。因此，灵心巧手希望抽象出一层灵巧手动作原语，把抓、握、捏、搓、按、手势等常见动作封装起来，将关节、触觉、力矩等复杂信息隐藏在原语内部，让上层算法开发者更容易使用。

夏华夏将系统分为多个层次：最底层是灵巧手动作原语，主要处理单手动作；再往上是结合手臂和环境的skill层，例如pick、insert、screw等；更高层则通过skill编排形成长程装配任务。动作原语并不是固定脚本，而要结合触觉和力矩反馈，使手能在不同本体和物体状态下稳定完成目标动作。团队计划开源手层面的动作原语库，并逐步推进更高层skill库。

围绕“让灵巧手学会制造自己”，夏华夏强调，近期目标并不是直接完成完整自复制，而是先提高长程装配可靠性，扩大技能库，推进从子装配到更完整装配闭环；中远期则逐步提高电子元器件、部件和系统层面的闭环比例。这个过程也提出一系列挑战：机器人本体存在制造误差、使用磨损、温度变化等硬件误差，软件必须自动容错；长程装配涉及多层动作边界与粒度定义；如果未来机器人可以制造或复制机器人，还必须考虑自我复制失控风险。

在观众提问中，夏华夏进一步区分“自复制”和“自进化”。自复制是制造与自己复杂度相当的机器，而自进化则是制造比自己更复杂、更精巧的机器。数字世界中的AI模型已经在一定程度上具备自我迭代能力，但物理世界的硬件本体尚未进入同样的进化过程。灵巧手如果能够制造更复杂的灵巧手或机器人部件，才可能让物理世界的硬件系统进入自进化链条。这一路径很难，但也正是具身智能区别于纯数字智能的深层价值。

王东林：通用人形机器人需要运动和操作一体化

王东林从机器人产业演进出发，将具身智能分为几个阶段：早期工业机器人主要解决效率问题，依赖传统机械控制和固定视角编程；之后出现带感知、规划和决策能力的服务机器人，如扫地机器人、酒店配送机器人等；进入大模型时代，行业开始追求大脑认知、小脑控制和本体硬件的深度融合。通用智能机器人不仅需要“会动”，还要在真实物理交互中完成运动与操作一体化。

他认为，通用机器人面临两个基础问题：通用本体是什么，通用算法是什么。若要同时具备操作和较强运动能力，人形机器人仍是最有可能的本体方向。算法上则需解决通用运动和通用操作两大模块，并最终把二者整合成真正的人形大模型。西湖机器人围绕这一目标设计了西湖O1人形本体，同时推进通用运动大模型和通用操作大模型。

在通用运动方面，王东林介绍了GAE模型。人形机器人相比四足或鸵鸟腿机器人更复杂，因为上半身有手、下半身有足，还涉及平衡和高维控制空间，传统控制难以建模。团队早期尝试Humanoid-VLA，但由于数据不足，后来先聚焦运动本身，抛开视觉做GAE。GAE目标是让人形机器人能够完成正常人能做的大多数动作。其训练流程包括采集和增强大规模动作数据，将其映射为标准人类SMPL表示，再映射到不同尺寸的机器人骨架；随后通过生成器和执行器两阶段训练，使机器人既能获得物理可信轨迹，又能在随机化和噪声中保持鲁棒性。

王东林特别强调部署中的时延问题。通信、感知、推理都会产生延迟，尤其在真机人形上不可忽视。团队通过提前将未来状态作为输入来补偿时延。GAE发布后已展示单人动作跟随、群控、手部动作和春晚部署等能力，说明通用运动模型可在不同机器人上快速部署。未来GAE还可与视觉、多模态大脑、VLA和世界模型结合，进入工厂等真实操作场景。

在通用操作方面，王东林认为VLA本质上是model-free policy，在大规模数据下仍有发展空间。下一步可沿模仿学习继续扩展，也可引入离线强化学习，因为模仿学习最多学到和数据一样好，而强化学习有机会超过数据。对于WAM，他将其视为迁移学习：视频生成模型是源域，机器人动作是目标域，二者分布重合越多，迁移越有效；若重合不足，则可能负迁移。因此，真正的physical world model大概率仍需企业主导的大量工程与真机数据。团队提出的WAV，即world value action model，在未来轨迹生成中加入价值模块，用累积奖励评估轨迹，再调整动作生成，试图把世界模型、价值函数和动作策略结合起来。王东林判断，VLA和世界模型真正通用化需要数年时间，但其中可能出现新的技术、产品和场景闭环，成为机器人产业规模化落地的关键。

王鹤：人形机器人的AlphaGo时刻与ChatGPT时刻

王鹤在下午场以“推动人形机器人的AlphaGo及ChatGPT时刻”为题，提出通用机器人应像人一样拥有能融入人类社会的身体，也拥有大脑和小脑协同结构。数字智能先经历AlphaGo在专精任务上的突破，再由GPT系列通过Scaling走向通用，最终在ChatGPT中让普通用户直接感受到能力跃迁。具身智能同样需要先在足够复杂、足够代表性的任务上突破“专精”，再走向通用。

银河通用选择打网球作为人形机器人的“AlphaGo时刻”候选任务。王鹤认为，网球需要高动态全身控制、手腕精细控制、击球策略、空间判断和高低层能力协同，比许多表演类动作更能检验人形机器人是否具备复杂运动智能。团队通过人类运动员动捕获得运动先验，将其retarget到人形机器人上，学习CVAE motion prior，再在latent space中进行强化学习，使机器人动作保持在人类运动分布内并加速收敛。手腕控制因精度要求极高，被单独端到端建模。最终系统可实现与人类数十拍对打，验证了sim-to-real在高动态任务中的可行性。

在灵巧手方面，王鹤介绍了DexNDM神经动力学模型。灵巧手任务高度contact-rich，单靠仿真强化学习难以跨越sim2real的鸿沟。银河通用先在仿真器中学习策略，再回收真实世界数据训练灵巧手神经动力学模型，用它弥合仿真与真实差异，并反向更新policy。由此实现转笔、手内重定向、工具使用等任务。他认为，灵巧手的真实突破不应是遥操数据模仿出来的僵硬动作，而应通过强化学习学出像人一样高效、连贯的多指协同。

通往具身“ChatGPT时刻”，王鹤提出AstraBrain架构：既有大脑，也有小脑，中间通过类似脑桥的结构连接，使慢速高层规划与快速低层控制异步协同。大脑部分采用WAM，将VLA的显式动作监督与视频生成/世界模型的无标签视频学习结合起来。无标签egocentric视频可覆盖更低成本、更广任务空间，视频中的未来图像或latent representation可隐含动作信息，因而释放了纯视频数据在具身基础模型Scaling中的价值。AstraBrain WAM0.5进一步在latent space而非RGB space中进行想象，降低光照、纹理等无关因素干扰，更聚焦动作和几何。

小脑方面，AstraBrain WBC基于HumanoidGPT，用20亿帧人类motion capture数据训练causal transformer式next action predictor，实现全身遥操和通用运动控制。王鹤还提出WAM-TTT，使普通用户只需在客户现场拍摄一段无标注视频，即可用video prediction loss把数据中心训练的模型适配到具体场景。HumanoidNDM则面向终身学习：机器人因磨损、负重或环境扰动导致动力学变化时，可在真实世界练习、回收数据、更新世界模型和policy，用约20分钟恢复能力。他判断，一旦具身基础模型具备70%至80% zero-shot成功率，并具备低门槛部署能力，行业将迎来真正的ChatGPT时刻。

高阳：具身智能的关键是把AI从5分推到50分

高阳以“重塑物理世界，打造机器人通用大脑”为主题，提出具身智能和人形机器人将打开万亿乃至十万亿级市场。相比工业机器人、扫地机器人、手机和汽车，人形通用机器人最终可能走进家庭和各类工作场景，替代大量体力劳动。当前硬件并非完全不可用，机械臂、轮式底盘等在过去几十年中已有较高成熟度，但“机器人大脑”能力仍然偏低。高阳认为，行业短期目标并不是直接达到100分通用智能，而是将软件智能从5分提升到50分，就能解决大量真实需求。

千寻智能的核心关注是具身大脑。高阳指出，过去两年行业最大的变化，是具身智能Scaling Law已在中等规模上得到验证：预训练数据越多，为特定任务达到目标成功率所需的后训练数据越少。这个规律意味着，通用预训练并非空泛概念，而是能降低边际部署成本。未来若要让10%的人或岗位被机器人替代，关键在于构建能够持续吸收多样数据、快速适配任务的基础模型。

高阳强调，具身智能的数据金字塔正在形成。从真机遥操数据，到UMI数据，再到人类第一视角视频，数据形态在过去两年快速变化。大规模人类数据成为预训练共识，但如何让模型真正从中学到物理世界理解、视觉信息、未来状态、latent space和动作输出，仍是核心难题。他认为，VLA在长程任务和语言条件控制上有优势，但在物理理解和泛化上不足；WAM/VAM通过未来画面或状态预测缓解动作泛化问题，但视频生成不等于视频理解，如果目标只是学习像素统计，模型仍可能缺少物理属性理解。

为此，高阳更倾向于把下一状态预测放在隐空间而非像素层面。隐空间未来状态预测可形成更好的物理抽象，避免视频生成模型只追求像素分布拟合。与此同时，单纯JEPA式latent prediction也不够，因为它能预测“门打开后是什么样”，却未必知道“什么动作能让门打开”。具身模型必须把对未来状态的预测与动作预测结合起来，形成多模态sequential modeling。换言之，语言、视觉、动作、触觉等信息都应进入统一的序列建模框架。

在圆桌中，高阳进一步提出具身通用化可分为两个阶段。第一阶段是“引导程序”阶段，通过互联网视频、可穿戴设备和in-the-wild数据预训练，使模型在新场景的后训练成本下降到分钟级。达到这一点后，任何任务只要值得做，就能以低边际成本微调部署。第二阶段才是大规模真实部署，数千万乃至上亿台机器人在真实世界工作并回流数据，形成数据飞轮。他认为，未来12至24个月具身基础模型会出现显著进步，边际部署成本快速下降，进而开启产业繁荣的早期阶段。

卢宗青：具身基础模型仍缺少公认训练范式

卢宗青从过去两年具身模型路线变化出发，指出具身智能的根本问题仍是基础模型没有真正解决。VLA试图把语言模型能力扩展到动作模态，使机器人可根据视觉和语言输出动作。它的优势是任务规划和语言条件控制，但缺点同样明显：物理理解不足、物理对齐能力弱，且容易过拟合下游任务。与语言模型SFT后仍可回答大量问题不同，当前VLA如果没有在特定任务上采过数据，往往缺少真正泛化能力。

从2025年起，行业开始转向video action model或WAM，希望通过同时预测未来画面和动作来改善泛化。但卢宗青提醒，视频生成并不等于视频理解。视频生成模型主要学习像素统计分布，生成结果可能看起来合理，却不符合物理属性。把这类模型直接作为WAM backbone，仍会面临物理理解不足的问题。因此，他主张把下一状态预测放在latent state中，而不是像素层面，以获得更抽象、更物理相关的表征。

但latent预测本身也会遇到坍塌和动作缺失问题。卢宗青介绍，其团队设计了posterior branch和prior branch结构：posterior branch对视频编码，类似JEPA；但与JEPA不同，模型还要输出动作，动作预测成为额外监督信号，迫使latent保留对机器人控制有用的信息，从而降低表示坍塌风险。也就是说，机器人基础模型不能只学世界会怎样变化，还必须学什么动作会导致这种变化。

在他看来，真正具身基础模型应在预训练后具备一定能力，再通过后训练泛化完成各种任务。而当下多数系统仍只是在下游任务中过拟合，缺少模型层面的泛化。数据层面可能已经逐渐收敛到大规模human video、UMI、遥操和真机数据混合的方向，但训练范式仍远未收敛。如何通过多模态序列建模同时学习物理世界理解和交互能力，是未来几年的关键科学问题。

卢宗青还强调，触觉对操作任务必不可少。语言模型预训练后天然获得一定能力，是因为文本空间中大量知识和任务都在同一模态中；具身模型则必须面对视觉、动作、触觉、本体状态和环境反馈之间的耦合。JEPA式方法是否足够，如何把触觉、动作和视觉统一建模，仍需要长期探索。他在圆桌中判断，未来2至3年具身基础模型会取得较大进展，但通用基础模型未必会在两年内出现。学术界应探索新的学习范式，工业界则需要把有希望的范式在大规模数据和算力下真正迭代出来。

穆尧：生成式仿真将开启具身自进化

穆尧以“生成式仿真驱动的具身智能自进化系统”为主题，讨论世界模型、生成式仿真、强化学习和具身操作系统如何共同构成自进化闭环。他首先指出，2026年可视为具身智能数据规模化元年。遥操数据、UMI数据、人类视频和数十万小时级数据集推动WAM成为重要范式。但如果WAM依赖大体量video generation模型同步生成动作，推理频率就会被拖慢，难以满足机器人高频控制需求。

为解决这一矛盾，穆尧提出AHA-WAM，希望让大体量WAM达到50Hz以上推理频率。核心问题是异步：视频生成可以慢速更新，但动作控制必须高速响应；慢速视频生成和当前观测之间会出现相位偏移，导致指导信息失效。团队通过轻量query token更新视频模型KV cache中对动作生成真正有用的信息，以高频、低成本方式弥补相位偏差。这样，云端可运行更强视频生成模型，端侧则保持快速动作更新。

他认为，WAM模仿学习在大规模数据下已取得重要进展，但仍不足以支撑真正自我进化。真机实验中，模型一旦抓偏、触发失败，往往无法像人一样恢复，因为模仿学习难以覆盖反事实推理空间。具身自进化系统至少需要三个模块：一是足够逼真且能生成多样环境的world model，供智能体交互；二是通用进展评估模型，为任务提供即时reward，而不必为每个任务手写奖励函数；三是强有力的基础模型学习方法，能利用物理交互和即时reward进行强化学习。

在可交互环境方面，穆尧强调2D视频生成不足以支撑机器人交互，因为人类和物理世界的交互本质发生在3D空间。因此团队构建多视角2D与3D联合生成的world model，可生成多视角RGB、point map、depth map等表征，提高视角一致性。更进一步，许多操作任务需要精细力和触觉模拟。例如拧试管涉及静摩擦、动摩擦、逐步增大的接触力，这类信息难以从普通人类视频中获得。团队因此开发视触觉和力的仿真平台，并通过精细物理资产标注、10万级物体资产和3D affordance标注，为触觉预训练和力控任务提供数据。

在动作生成方面，穆尧比较了自回归和flow matching/diffusion路线。自回归可计算精确log probability，但对连续复杂轨迹容易产生累积误差；diffusion表达能力强，但动作对数概率难以精确计算，不便接入强化学习。团队提出离散扩散动作生成，兼具全局视野、迭代优化和可计算log probability，可与PPO、GRPO等强化学习方法适配，并通过自适应去噪步数在效率和性能之间平衡。最终，穆尧设想的RoboEvolve/RoboClaw系统，是由Agent驱动数据采集、policy训练、失败恢复、人类接管和数据回流的闭环操作系统。具身智能要超越模仿，必须让机器人在世界引擎中不断试错、恢复和进化。

李弘扬：全身小脑和体育任务是具身智能的重要试金石

李弘扬在报告中有意避开热门VLA和世界模型，转而讨论“Humanoid for sports”和全身小脑。他认为，机器人系统不能只看上半身manipulation，也不能只看炫酷表演。真正难的问题往往不在公众觉得酷的功夫或跳舞，而在研究者眼中更基础、更困难的全身协调：开重门、侧身穿过狭窄空间、搬运箱体、踢球、打乒乓球等任务，都要求上半身、下半身、感知、平衡和环境交互协同。

他将机器人系统拆分为算法、数据、硬件、评测和基础设施多个层面。算法内部又包括manipulation、locomotion、navigation、dexterous hand等不同方向。过去一年，小脑相关工作发展迅速，如动态平衡、抗摔、物体交互、全身tracker等，但许多工作仍缺少真正泛化能力。李弘扬强调，具身研究不应被VLA、WAM等单一热点裹挟，触觉、电子皮肤、传感器、全身协调、系统级评测同样是高价值方向。

他提出，体育任务是研究全身智能的理想场景，因为sports具有结构化规则、强交互、重力和摩擦等物理变化，且可通过动捕获取人类运动数据并迁移到人形机器人上。体育任务既需要小脑执行稳定运动，也需要大脑做策略判断，是大小脑协同的天然测试场。李弘扬用“强交互、可泛化、高智能”概括Humanoid for sports的三个关键词，并呼吁2026、2027年更多研究者投入滑板、羽毛球、乒乓球、足球等任务，训练universal tracker或policy。

在乒乓球项目中，团队希望摆脱昂贵的motion capture系统。训练时可使用动捕获得reference motion，但部署时应依赖机器人自身主动视觉或被动视觉定位球的位置。系统pipeline包括采集human motions、训练reference motion、从人到机器人重映射、强化学习训练whole body control、必要时加入遥操作和全身操作。乒乓球任务中，主动视觉、sim-to-real、感知、全身协调都非常关键。李弘扬坦率指出，扣杀等高动态动作目前仍处于实验室阶段，十次成功两三次就是领域现实；但双打、旋转球识别、多人协同等问题仍有大量值得研究的空间。

足球项目则强调任意位置射门和守球。机器人不仅要跟踪动作，还要根据目标位置、球的位置和力度变化做适应。当前系统中球的识别仍依赖涂层、雷达等工程方案，脚部没有触觉传感也限制了力度建模。李弘扬最后提醒，当前benchmark存在严重问题，单看success rate不足以评价机器人智能；研究者应关注更多evaluation metrics、system level问题和真实交互能力。他认为，具身智能最重要的是机器人和物理世界发生交互，传感器、触觉、力控、全身系统工程，往往比在噪声很大的榜单上刷一点分更有长期价值。

丁文超：通用物理智能必须打通数据、模型与硬件

丁文超以它石智航TARS的实践说明，具身智能的Scaling Law并没有秘密，但必须同时解决数据、模型和物理硬件三角。自动驾驶行业已经进入数据较充分、比拼模型和test-time compute的阶段，而具身智能仍处在data scaling都没真正做好的早期。TARS从创立之初就围绕Data、AI和Physics布局，强调human-centric data、AWE/world action model以及硬件与应用闭环。

丁文超首先反驳“ego-centric只能学趋势、不能学精细操作”的看法。他展示的线束、插接等长程柔性高精度任务，要求机器人在毫米甚至亚毫米级别持续操作，并能在扰动后自我微调。传统工业自动化已解决大量刚性、规则任务，下一代具身智能应解决柔性物体、动态步骤和长程任务的交集，例如线束、穿针引线、刺绣、收纳、拉拉链等。

TARS的数据路线是human-centric data，而不只是普通ego-centric video。人佩戴第一视角摄像头、手套、末端触觉等设备采集数据，机器人端则拥有对应的夹爪、灵巧手和触觉反馈。这样可形成从人到机器人更对称的数据结构。丁文超强调，vision-only ego-centric缺少末端feedback，难以知道是否接触、是否夹住、是否滑动；加入触觉和末端反馈后，模型能更高效地学到柔性和接触任务的关键模式。团队还构建云端AI自动标注流程，将video、action和tactile转化为模型训练所需的task、spatial、trajectory等结构化信息。

在模型层面，丁文超认为架构细节不是唯一重点，更重要的是模型具备哪些能力。跨本体、触觉建模、高频动作输出、长程柔性任务恢复，都比单纯更换backbone更关键。他特别强调触觉：触觉本质上也可看作一种图像信号，能与视觉共同进入world model。在很多任务中，模型需要通过末端反馈做细微角度调整和柔性适应，这对cross embodiment鲁棒性至关重要。

关于控制频率，他指出许多WAM/VLA demo不展示1倍速，是因为动作不够顺滑、频率不足。TARS通过在latent space中建模action，使视频流和动作流解耦频率，在同一模型内提升action chunk decoding频率，可达到20至30Hz甚至更高。丁文超认为，具身模型是system work，从数据到模型到部署缺一不可。硬件也必须进入闭环：关节扭矩、精度、脉动，采集末端、触觉、21自由度灵巧手、本体形态，都会影响模型最终表现。它石因此选择自研关键硬件，认为只有软硬件系统化优化，才能真正解锁人类水平的灵巧操作。他最后提出，未来三到五年行业应有更高心气，发展vision、language、action三种模态深度统一的具身原生基础模型，而不仅是把VLM或视频模型拼接到机器人动作上。

圆桌讨论：具身智能距离“ChatGPT时刻”还差什么

下午场最后的圆桌由王鹏伟主持，王鹤、罗剑岚、高阳、卢宗青、穆尧、丁文超参与。讨论围绕具身智能的卡点、数据模型本体闭环、数据质量和未来三五年终局展开。

问题一：具身智能的核心卡点在哪里，能否复现大语言模型Scaling？

王鹤认为，首先要定义什么是具身ChatGPT时刻。他提出两个指标：一是capability，即zero-shot完成普通人不需专门学习的技能，成功率达到70%至80%；二是accessibility，即部署门槛足够低，普通人可用少量现场数据完成后训练并部署到饮料店、药房等场景。他判断WAM已经给出较清晰Scaling方向，因为它可同时吸收无action标签的人类第一视角视频和有标签robot data。若数据质量、硬件和大小脑协同持续迭代，未来两到三年有望突破。

罗剑岚提醒，语言模型的ChatGPT建立在静态、巨大、覆盖人类知识的文本预训练集之上，而机器人没有类似现成数据集。具身智能更可能出现deployment Scaling Law：随着第1000台、第1万台、第10万台机器人部署，新增部署和新增数据的综合成本呈对数下降。也许并不需要想象中的1亿小时、10亿小时数据，真实部署规模化后，数据飞轮会改变问题设定。

高阳将路线分成两阶段。第一阶段是引导程序，通过互联网视频、可穿戴设备数据等in-the-wild数据预训练，使新场景的后训练成本降到分钟级；第二阶段才是massive deployment，让几千万台、上亿台机器人在真实世界干活并回流数据。卢宗青则更谨慎，认为当前最大问题是泛化性尚未形成，数据层面可能逐渐收敛，但训练范式没有公认答案。穆尧补充，视觉泛化已有较大进展，但技能泛化、力触觉数据和精细交互仍是瓶颈。丁文超强调data efficiency，不只是数据量，还要衡量单位数据对智能提升的贡献。

问题二：数据、模型与本体应如何形成闭环？

王鹤认为，具身智能市场最终会形成产业链，但在突破ChatGPT时刻之前，创业公司必须把关键闭环掌握在自己手里。硬件中非平庸、别人做不好的部分，必须进入自己的数据和模型循环，否则会被速度拖垮。罗剑岚认为，当前硬件并不完美，但在一些半开放场景中已基本够用；真正决定性的是谁能在12至18个月内跑通真实部署的数据闭环。对创业公司而言，快是核心优势。

高阳同意闭环优先。硬件、模型、数据都应服务于系统全生命周期：模型训出来后，在客户场景中会在哪里失败，系统最薄弱环节是什么，只有闭环跑通才知道。卢宗青则从商业选择角度指出，做本体、做数据、做模型可以分工，预训练基础模型并不必强耦合某一款本体；但公司在落地时仍需要通过特定场景商业化。穆尧从高校研究角度强调，即便不做完整本体，数采设备也必须自己掌握，否则传感器配置、视野、人与机器人配准等关键问题难以研究。丁文超则认为，硬件需要从一开始纳入系统优化，因为许多模型效果失败的根源在关节、相机、末端传感器和部署吞吐等“冰面之下”的问题。

问题三：数据质量、触觉和负样本如何进入训练体系？

高阳谈到，居家数据采集中会出现大量低价值、重复甚至无效行为，千寻智能构建自动监控系统和激励机制，用大模型实时指导数采员做出符合需求的行为，并不断把数据采集know-how写入流程。王鹤指出，从遥操、UMI到ego-centric，各类数据都有质量问题，raw data必须经过过滤、可视化排错、人工质检和大模型筛选。目前有效数据出产率不高，许多ego-centric供应商的数据质量良莠不齐，未来一两年行业需要形成更成熟的数据质检标准。

卢宗青更关注多样性。他认为预训练数据供应不应只按订单采特定任务，而应利用大量存量多样数据。随着京东、蚂蚁、美团等平台通过众包采集ego数据，行业可能很快拥有百万小时级数据，但文本标注和语义描述质量仍需标准化。穆尧和丁文超都强调触觉数据难度更高。穆尧认为力触觉数据不一定要追求绝对精确值，而应抓住趋势、跳变、零漂等关键指标；真正困难的是视觉、力、触觉多传感器同步。丁文超指出，很多无本体数采设备并未真正经过训练管线验证，多模态同步、末端反馈、传感器稳定性仍是巨大挑战；但未来12个月触觉硬件可能快速演进，力触觉会逐步成为高端操作任务的标配。

针对负样本和失败数据，罗剑岚认为，一旦机器人进入真实部署，成功、失败、人类干预、partial recovery都会自然出现。关键在于技术栈选择：如果相信未来90%能力来自预训练，只需少量后训练，就是一套路线；如果认为未来90%数据来自部署和探索，则需要完全不同的数据与强化学习技术栈。这个选择会深刻影响公司和研究路线。

问题四：未来三到五年，机器人行业会走向哪里？

王鹤认为，未来24个月最重要的是预训练与低门槛后训练能否突破，让机器人真正自主工作，而不是仅销售跑跳或预编程的人形机器人。他期待看到万台自主工作机器人出现，并认为这会成为具身ChatGPT时刻的重要信号。罗剑岚认为，短期12至18个月的关键checkpoint是真实部署带来的数据闭环，无论是1000台还是1万台，只要不是0，就会带来行业信号；长期看，未来五到十年仍有大量根本科学问题待解。

高阳判断，未来12至24个月具身基础模型会显著进步，边际部署成本下降，产业繁荣的开端会出现。卢宗青认为，未来2至3年具身基础模型会有大进展，特别是把物理世界理解和交互统一起来，因为当前视觉语言模型之所以理解不好，根本原因是没有在交互数据和环境中训练。穆尧最期待大规模经验数据的Scale-up，经验数据既可来自真机，也可来自world model和simulator，目标是让智能体通过经验超越人类能力。丁文超则期待具身原生基础模型出现：不是简单把VLM变成VLA，或把视频模型拼成WAM，而是重新梳理vision、language、action三种模态，让具身智能拥有自己的原生模型范式。

大会回放 https://2026.baai.ac.cn

内容中包含的图片若涉及版权问题，请及时与我们联系删除

从模型性能、数据瓶颈突破，到真机部署：智源大会具身智能与人形机器人论坛