当以视觉-语言-行动(VLA)为代表的大模型持续突破感知与推理边界,具身智能(Embodied AI)正被推向一个全新的临界点:模型能力的指数级提升,首次与物理世界的复杂性形成正面碰撞。不同于纯数字空间中的语言与视觉任务,真实世界中的接触动力学、不确定性与长尾分布,正在系统性地暴露出现有范式的结构性瓶颈——数据稀缺、评估失真以及仿真与现实之间难以弥合的鸿沟。
在这一背景下,具身智能的核心问题正从“模型是否足够强大”,转向“模型如何在真实世界中可靠运行”。这一转变标志着研究范式从以模型为中心(model-centric),逐步迈向以数据与评估驱动(data & evaluation-centric)的新阶段。
上海交通大学助理教授穆尧,长期致力于多模态具身智能与机器人学习研究,试图打通从认知理解到物理执行的完整技术链路。从 EmbodiedGPT、RoboCodeX,到 RoboTwin 与 MM-ACT,其工作系统性地探索了大模型“落地物理世界”的关键路径。在本次专访中,他进一步提出一个看似朴素却具有决定性意义的判断:“数据为王”——并以此为核心,重新审视评估体系、跨本体迁移机制以及世界模型的未来形态。

图注:穆尧博士
围绕这一判断,一条更清晰的技术主线逐渐浮现:高质量数据决定具身智能的能力上限,评估体系决定其规模化路径,而“人—数字人—机器人”的三元结构,则构成跨越不同物理本体的关键桥梁。在这一框架下,具身智能不再只是机器人控制问题的延伸,而是迈向通用智能的重要中间形态,其终局形态,或将远超当前的技术想象。
人工智能与物理世界的深度融合正成为推动机器人技术革新的关键力量,上海交通大学助理教授穆尧博士,作为多模态具身智能(Embodied AI)和机器人学习领域的杰出研究者,围绕具身认知、行为生成、策略学习与统一基础模型构建等关键方向,取得了一系列具有代表性和影响力的研究成果,包括具身思维链模型 EmbodiedGPT、多模态机器人代码生成框架 RoboCodeX、可迁移视觉控制表征模型 CtrlFormer、双臂协同生成式数字孪生平台 RoboTwin,以及基于离散扩散理论的具身基础模型 MM-ACT。上述工作系统覆盖了从高层任务理解与跨模态推理,到机器人行为生成、复杂策略学习,再到大统一具身基础模型构建的多个核心层面,并逐步构建起一条从认知理解、行为生成到系统落地的完整研究链条。
他的团队研究理念可以概括为“为智慧塑形,为机器注灵”(Shape the intelligence and spirit the machine),旨在为大型语言模型赋予物理身体,推动人工智能在物理世界的感知、决策与行动能力。使机器人能够执行如拧瓶盖、端水等具体操作,同时让其具备理解人类意图和状态的能力,从而超越传统机器人单一任务、高精度控制的局限。
从多模态数据驱动的机器人训练到机器人学习与强化学习,从VLA模型到具身智能,物理世界的不稳定带来模型的更迭,数据、模型、硬件,哪一方面最重要?作为scaling law 的坚定支持者,穆尧博士认为“数据为王”。
关于物理层的仿真与真实落地场景中的差异如何解决?怎么样去推动整个行业建立一个统一的标准?如何定义具身智能视角下的世界模型?穆尧博士透过模型看本质,从自己的经验角度谈谈对具身智能领域关键问题的理解。
采访&编辑:陈旭、宇轩
要点速览
关于数据和评估:数据是重要的,其中高质量数据是最重要的,优质数据的scale up离不开全面有效的评估。
关于人,数字人和机器人三元一体的框架:随着机器人本体做的越来越好,模型从人的本体迁移到机器人本体的难度会一点一点的减小。转化模块能够快速的把人的行为映射到机器人,并且同时机器人能够实现物理感知。
关于具身智能领域的优势和短板:国内的硬件发展水平发展势头非常强劲,硬件迭代速度是国外很难比拟的, 对于风险的容忍度上,我们可能有一定的欠缺。
关于世界模型和具身智能领域的期待:世界模型模拟和推演能力还是不够,需要多方努力。如果数据非常充足的话,具身智能的发展不止于当前的这个形态,我们其实一直在把它不断的做成更高阶的形态。
智源专访栏目意在展现行业顶尖技术研究者和创业者的研究经历和故事,记录技术世界的嬗变,激发当代AI从业者的创新思维,启迪认知、关注突破性进展,为行业注入灵感光芒。本次专访为总第37期。
01
数据基石与评估保障
“高质量数据是最重要的,在此基础上再谈基准与评估”
Q1:在具身智能领域,目前基于视觉要素发展的VLA模型,和基于自动控制和物理层要素发展的机器人学研究,这两个不同方向主导的发展水平,是齐头并进还是有一些发展不平衡的现象?或者说有没有哪个方向发展的更快,这两个要素需要怎么配合的更好?
穆尧:这是一个特别好的问题。其实现在两个方向的发展都到了比较先进的水平。一些自动控制领域的学者确实把机械臂的柔顺控制做得很好。VLA框架的发展目前也达到了一个非常大的爆发点。在实际应用中,如果只考虑双臂操作,不考虑底盘,两个方向的交叉可以诞生很多的创新点,个人认为2026年工作重心会集中在两个方向的交叉点。另外对于人形机器人的运动控制有待提高,稳定性不足使得VLA框架的应用受到很大的挑战。人形机器人在运动过程中,视角的变化带来很多问题,对于整个学界来说需要在这个层面上努力。

图注:穆尧博士在2026年青源学术年会的演讲
Q2:目前看来很多机器人公司,成立自己的核心部门做相关硬件,关节,灵巧手等部件。最近,有学者提出来一个具身智能领域面临的不可能三角问题,包括这三个维度:通用性,性能和自主性。那您的观点,要解决这个不可能三角问题需要从数据还是模型或者硬件方面去考虑,哪一个因素更重要呢?或者三个因素都很重要,分别起到什么样的作用?
穆尧:从目前的趋势来看,数据是重要的,其中高质量数据是最重要的。其实硬件的发展已经达到一个高度,需要提升的是灵巧手方向,相对于人类来说,机器人手部操作的成熟度太低了。对于模型端来说目前的模型架构也足够。所以优质数据是非常重要的解决问题的部分,可能也是2026年领域内的关注重点。如果从仿真序列出发,实际的考量除了数据,另外一点要针对模型的表现去观察模型欠缺哪方面的能力,针对这些欠缺能力采用针对性的补充方法,在这个过程中,优质数据的scale up离不开全面有效的评估。个人认为问题的解决50%在数据生成方面,50%在数据评估方面。
Q3:所以您的观点是,基准评测除了包括数据生成,更重要的需要做到评估。具体到实际情况,现在评测的基准有一些碎片化,复现存在一定困难,泛化性能也有限。那您认为这种仿真的基准与真实落地场景中的差异根源是什么?如何去弥补这种差异呢?
穆尧:首先我觉得物理层面的仿真水平并不差,随着对任务的要求越来越多,物理层面的仿真基准与真实世界的差异可能会持续存在。如果要求在物理层面仿真基准达到百分之百的精准,确实有很长的路要走。但我觉得很重要的一点是,在2026年,仿真能力会再上一个台阶。包括国内的很多机构都在努力,其实并没有什么根本性的难题,在比如说对于柔性体的仿真也都有很好的效果,只是对规模大的系统性的集成存在差距,但我依然认为要求仿真基准和真实世界完全一致是比较困难的。
其次需要考虑清楚,评测的目标其实是评估模型在某一个维度的能力。在这个维度上的能力对模型进行一个等级的评估。这个等级的评估主要是用来指导模型是否还需要这类任务的额外的数据。所以我认为仿真基准和真实世界更应该从这个角度保持一致。

图注:《RoboTwin: Dual-Arm Robot Benchmark with Generative Digital Twins》论文示意图
Q4:实际上,物理世界和仿真世界里面需要有对应的等级区分,保持对应是很重要的。在未来的理想评测体系中,应该从哪些维度上去考虑让体系更完善?建立了这样的评测体系之后,怎么样去推动整个行业建立一个统一的标准?
穆尧:行业统一的标准其实属于一个开放问题。我们推广的学术资源确实有越来越多的人在使用。但同时,各个机构也有各自的标准,不同的公司希望以自己的标准为主。可能将来会制订国家标准,也许级别越高的标准,比如国家标准等等,滞后性越严重。对于专家数据希望能预留一些可拓展性,可拓展性的一个核心作用在于,用户基于开源平台,有一些更针对性的额外的业务和场景需要拓展。拓展性可以去评测一些附加能力,但额外能力不一定是所有用户都需要的,未来的体系需要增加这样的可拓展性。
比如语言模型已经发展至今,仍然没有一个特别通用的标准。其实基准的可适用性和可拓展性会更重要,很难期待权威机构能够发布一个完全通用的基准。一方面,基准的适用性要能够覆盖不同规模、不同应用场景的语言模型,无论是小型的专注于特定领域的模型,还是大型的通用语言模型,都能有与之匹配的评估方式;另一方面,可拓展性意味着基准要具备随着语言模型技术发展而不断更新和补充的能力,能够及时纳入新的评估指标和方法,以应对语言模型在功能和应用上的持续创新。例如,随着语言模型在多模态交互、复杂推理等方面取得进展,基准也应相应地增加对这些新能力的评估维度。
Q5:设想用户可能会自己去制定一些新任务,然后需要去收集新数据,实际上这个任务是比较困难的。或许用户之前的相关数据也比较少,还需要面对更多的开放场景下的问题。针对于开放的场景,如何去构建数据收集和评测的标准方式呢?
穆尧:在真实的开放世界评估,其实是一个比较难的问题。因为我们只能从开放世界里参考一些比较关注的典型应用来做评测。我觉得很难靠评测体系的健全来完成真实开放的评估。评测体系自身包括若干个维度,使用在这些维度达到的分数衡量开放世界。然而在评测维度之外的能力其实很重要,比如优质数据的采集,要来自真实开放世界的各个方面。
经常出现的状况是在一些特定的场景下收集了大批数据,但是真正的日常的环境下,数据反而是缺失的。优质数据的采集不仅需要覆盖多样的场景,还要能反映不同用户群体的真实需求和行为模式。所以这样的困境导致评估开放能力的缺失。从这个角度来说,根本的解决方式还是在于优质数据的采集。举一个例子,之前对模型的设计不够强,比如在采集过程当中背景不够干净,或者数据中有人手拖拽的一些痕迹,会对模型训练造成影响。如果通过远距离操作来采集数据,其实从接触度这个维度来说属于比较低质的数据。
随着基础模型和大模型的发展,比如在VLA的训练过程中,即使采集的数据中有一些背景和噪声,并不会对模型造成干扰。从算法端可以借鉴语言学习的思想,收集海量的数据,模型学习之后涌现出来对于开放任务的一些能力。我对人工智能的期待在于强大算力加持下,模型可以涌现出来一些超出想象的能力。
02
三元一体框架:迁移与映射的协同
“具身智能领域的中间转换-模型需要跨越人与机器人之间的鸿沟”
Q6:您之前提到“人,数字人和机器人”三元一体的框架:在不同的空间维度,每一方承担相应的责任和作用,那能不能详细解读一下,您设想中的框架技术链路以及如何解决数据瓶颈?
穆尧:实际上目前提出来的这个框架,包括几个核心点:其一,认为人的数据是最本质的,来源于人的数据其实是最优势和本质的。从人的数据出发,针对人类行为中的基础动作模式进行提取与建模,可以学习到基础模型中,相当于把人的经验赋予基础模型。其二,将基础模型集成到一个强化模型当中,从以人为本的基础模型再进一步跨越到以机器人为本的基础模型。如果模型能够从灵巧的本体跨越到机器人-不太灵巧的本体,数字人的建模就扮演中间桥梁的角色,比如可以根据数字人的关节限制,把模型迁移到机器人上。
我们的研究团队提出了一系列方法,基于强化学习等技术完成了部分优化。在人和机器人本体之间进行模型迁移,核心目的是保持人类行为的智能性。同时,迁移到机器人本体上的模型需满足物理约束,这是该框架的核心内容。即便支撑技术再发展多年,可能仍会在这个框架内。随着机器人本体性能不断提升,模型从人类本体迁移到机器人本体的难度将逐步降低,因此这个框架会持续存在,其能力也会不断提升。
Q7:从人到机器人,如果说数字人是一个中介的话,能不能实现通用中间件,通用算子这样的一些转化的模块?如果有新的一个任务要从人扩展到机器人的话,模型可以很快实现从人到数字人再到机器人的转化。
穆尧:这是非常好的一个问题,团队目前就在做中间转换的重点研究,主要还是通过强化学习来驱动。转化模块能够快速的把人的行为映射到机器人,并且同时机器人能够实现物理感知。这一过程的关键在于设计高效的中间表示和转换规则,确保人的行为特征能够准确无误地传递到机器人,同时让机器人能够理解和适应现实世界的物理规则。
Q8:目前,与国外相比,国内具身智能领域研究的优势和短板分别是什么?与顶尖的实验室相比有没有差距?如果有的话在哪些方面?
穆尧:首先,我们的优势很清楚,国内的硬件发展水平发展势头非常强劲,硬件迭代速度是国外很难比拟的, 这算是碾压式的一个优势,在硬件发展方面国外很难和国内形成一些竞争。不足的地方在于不管高校还是工业界,我们对风险的承受能力和包容程度欠缺一些,包括这些初创公司背后的资本驱动和美国资本相比还是有区别。其次,目前来看,和国外各种机构相比,国内拥有的数据体量还是差很多,这一点其实挺可惜的。这一点刚好智源平台能够提供非常好的支持。
具身领域中可能存在一些失败的探索方向。比如OpenAI,这个公司成立之初做的方向,和现在做的方向完全是不一致的,探索了很久,但是最终能够成功,其实少不了坚持不懈的探索。所以对于风险的容忍度上,我们可能有一定的欠缺。从技术上,我觉得没有什么明显的短板,恰恰并不是说硬实力方面,有一些短暂的差距。
03
对于世界模型和具身智能领域发展的期待
“提升模拟能力与探索高阶形态”
Q9:站在您自己的视角,如何定义具身智能视角下的世界模型?在具身智能的视角下,怎么设计模型是更合适的,空间认知是不是一个关键的技术?
穆尧:相对于空间认知,可能更重要的是空间推理,是能够大大提升具身智能水平的一个关键。具身智能在完成任务时,需要理解并推理其所在环境中的各种元素及其相互关系,而空间推理正是实现这一目标的重要手段。通过空间推理,具身智能可以更好地理解物体的位置、方向、运动状态等信息,从而做出更加准确的决策和行动。因此,在设计具身智能模型时,应充分考虑空间推理的作用,通过引入相关的算法和技术,提升模型的推理能力和智能水平。实际上具身智能对世界模型的依赖是非常大的,还是需要依托世界模型来做一个非常好的推理效果。从这个角度来说,我觉得能够完成空间推理的世界模型对于具身智能来说非常重要。

来源:网络
Q10:目前,世界模型在具身智能里的应用还有什么不足呢?或者说我们期待哪方面有更大的突破呢?
穆尧:目前的主要问题在于世界模型模拟和推演能力还是不够,特别是对物理世界强接触的部分,还是有很大的欠缺。比如在一些需要精细操作或者高强度交互的场景中,现有的世界模型往往难以准确模拟出真实世界的复杂情况和动态变化。而且,对于物理世界中一些突发状况和意外事件的应对能力也明显不足,这极大地限制了具身智能在复杂环境中的应用和发展。可能需要多方努力,具身智能的发展还是存在数据的问题,如果数据非常充足的话,其实可以很好的去完成物理层面上一些很难的事情,比如视频生成模型生成的一些现实很难做到的动作。核心点在于对世界模型来说还是缺数据。
Q11:您觉得2026年会产生大的改变的方向有哪些?为什么?
穆尧:我分数据、模型和系统三个方面来回答。
首先在数据部分,我觉得具身智能已经走过了从零到一的过程,2026 年会是真正的具身数据规模化元年。最关键的不只是“数据量变大”,而是规模化的对象发生了变化。我认为,过去大家规模化的更多还是“遥操数据”“任务演示数据”或者“特定本体上的操作轨迹”,但到了 2026 年,真正会被大规模扩展的,是蕴含人类交互智能的 Ego 数据、低成本人类操作数据,以及高质量仿真生成数据。这背后意味着一个根本变化:行业开始意识到,真正稀缺的不是某一条轨迹本身,而是可迁移的交互先验。
为什么这是关键?因为具身智能要想真正做大,不能永远绑定在某一个机器人本体、某一套遥操设备、某一个实验室 SOP 上。数据如果天然就带着很强的“机器人形态烙印”,那它的规模越大,某种意义上只是把局部经验放大,并不一定能形成通用能力。反过来,Ego 数据、人类手操作数据以及大规模仿真数据的价值在于,它们都在不同程度上提供了一种更接近“世界交互规律”本身的描述。前者提供真实的人类操作意图、手眼协调和任务分解过程,后者提供大规模、可控、可验证、可自动扩展的交互分布。这两者一旦结合起来,才真正有机会形成面向基础模型的“大一统数据底座”。
所以我觉得 2026 年数据侧最大的变化,不是简单地“谁采得更多”,而是谁先建立起一整套自动化的数据生产体系。包括自动筛选、自动切片、自动打标签、自动质检、自动重放、自动评估,以及数据和模型之间的闭环反馈。未来真正重要的,不再是人工一条条看数据,而是能不能形成一个持续迭代的数据工厂。谁先把这个工厂建起来,谁就会在下一阶段占据非常大的优势。
第二个方面是模型。我觉得 2026 年模型层面最重要的变化,不是再出现一个特别花哨的新结构,而是大家会更明确地朝着World Model 和 VLA 分工协同这个方向收敛。也就是说,行业会逐渐接受一个事实:具身基础模型不能只做“看图出动作”的短路映射,而必须显式或者隐式地学习世界的可交互逻辑。
过去很多 VLA 的成功,更多建立在 imitation learning 意义上的模式拟合。它能在分布内做得不错,但一旦遇到长程任务、环境扰动、连续试错、多步回退这类问题,模型就会暴露出明显短板。因为它本质上没有真正掌握“动作导致世界如何变化”的内在因果结构。2026 年我觉得会有一个很大的转折点,就是大家会越来越重视:模型不仅要会生成动作,还要能想象动作之后会发生什么。
这就会带来两个趋势。第一个趋势是,世界模型的重要性会被进一步抬高。它不一定非要以某一种固定形式出现,但它必须承担“预测交互结果、支持多步推演、提供可验证反馈”的作用。第二个趋势是,VLA 会从单纯的 policy 模型,逐渐变成更像一个任务接口层和对齐层。它负责理解目标、承载语义、结合当前观测生成阶段性策略,而更深层的世界规律、长期演化和多步结果评估,可能会更多交给世界模型或者与之融合的结构去处理。
再往后一步看,我甚至觉得 2026 年大家会重新定义“好模型”的标准。以前我们比较关注的是 benchmark 上的 success rate、loss、泛化集表现;但未来真正重要的指标,可能会变成这个模型是否能够支持交互式推理、在线修正、自主探索和跨 embodiment 迁移。也就是说,一个好的具身模型,不只是一个会模仿的模型,而是一个能够在不确定环境里持续修正自己的模型。
第三个方面是系统。我觉得 2026 年系统层面的变化会非常大,而且这个变化可能比模型本身还要更快落地。因为大家逐渐会发现,具身智能不是一个单点模型问题,而是一个完整系统工程问题。未来真正决定能力上限的,往往不是某个单独模块,而是数据、模型、仿真、真机、评测、部署能不能形成闭环。
所以我认为 2026 年系统侧会出现三个非常明显的趋势。
第一个趋势是,仿真会从“辅助工具”升级为“核心基础设施”。以前很多团队把仿真当作数据补充或者 demo 环境,但未来它会变成训练、验证、筛选、回放、评估甚至自动生成新任务的中枢。因为一旦你想做规模化迭代,就必须依赖一个足够自动化、足够可控、足够接近真实交互逻辑的环境。没有这层系统支撑,模型训练速度和数据闭环效率都会受到巨大限制。
第二个趋势是,系统会越来越强调跨本体、跨任务、跨场景的一致接口。这件事其实非常关键。因为今天很多成果看起来都不错,但往往只在一个特定机器人或者一个数据协议上成立。未来如果想真正做基础模型,就必须解决不同机械臂、不同夹爪、不同传感器、不同任务定义之间的统一表达问题。只有系统层先把接口抽象清楚,模型层才可能学到真正具有迁移性的能力。否则永远是换一个本体就重来一次。
第三个趋势是,真机系统会更像一个持续在线学习和验证的平台,而不是一个单次跑 benchmark 的展示平台。未来真机不再只是“证明我能做出来”,而是要成为整个系统不断接收新数据、发现新失败模式、反哺模型优化的关键闭环节点。也就是说,真机的价值会越来越偏向“验证与纠错中枢”,而不是单纯做最终展示。这会直接改变很多团队的研发组织方式。
如果把这三部分放在一起看,我觉得 2026 年最大的变化,本质上是行业会从“单点突破思维”走向“闭环系统思维”。以前大家总想找一个决定性的单点答案:是不是遥操最重要、是不是 VLA 最重要、是不是某个架构最重要。但到了这个阶段,大家会越来越清楚,真正决定上限的是三件事能否同时成立:有没有可规模化的高质量数据,能不能学到可交互的世界规律,能不能用系统把这些能力持续闭环到真实世界中。
2026 年,具身智能将从“会做几个动作”走向“开始具备持续学习真实世界的能力”。而这个变化,不会只体现在模型参数或者某个单榜单成绩上,它会体现在整个行业对于数据、模型和系统三者关系的重新理解上。

专访KAUST诸葛鸣晨丨2026 Agent最大突破是“递归自进化”,三年后有望实现“神经计算机”
内容中包含的图片若涉及版权问题,请及时与我们联系删除



评论
沙发等你来抢