黄仁勋「组局」，具身智能的核心玩家们聊了聊人形机器人的落地与未来

文章转载自「Linguista」

今年的 GTC 大会，英伟达发布了通用机器人模型 GR00T N1，老黄特别提到未来重点关注的趋势是「Physical AI」（物理 AI）。

不仅如此，老黄还把当下机器人领域的核心玩家都喊了过来，针对人形机器人领域当下的技术路径、数据问题以及通用模型和通用机器人等问题进行了深入探讨，有不少很有价值的观点。

嘉宾阵容很强大，1X、Skild AI、Agility Robotics、Boston Dynamics……堪称具身智能领域的「华山论剑」。

嘉宾介绍：

Bernt Børnich，人形机器人创企 1X 的创始人兼 CEO。1X 致力于构建完全自主的人形机器人。此前曾推出专注于家庭场景的人形机器人 NEO。
Deepak Pathak，具身智能创企 Skild AI 的 CEO 兼联创。Skild AI 致力于打造机器人通用「大脑」。此前曾推出曾推出可扩展的机器人基础模型「Skild Brain」。
Pras Velagapudi，人形机器人创企 Agility Robotics 的 CTO， Agility 曾推出第一款商用化出售的机器人 Digit。
Aaron Saunders，美国「老牌」机器人公司 Boston Dynamics 的 CTO。Boston Dynamics 曾推出人形机器人 Atlas。

TLDR：

多模态、推理模型都是解决机器人问题的必要但不充分条件。首先必须要先解决视觉问题，拥有一个好的视觉控制系统，然后再追求通用机器人。
也许多模态大模型无法完全解决机器人或通用智能的问题，但让机器人控制系统变得足够实用，足以支撑起一个规模化的数据飞轮（data flywheel）。这个飞轮可以摆脱每一步遥控操作，让机器人持续自我强化。
让机器人更广泛地应用在现实环境中，获取多样化的数据是至关重要的。机器人技术的发展必须发生在人群和家庭中，因为这些环境能提供真实且多样化的数据。
目前谈论完全零样本的跨实体泛化还为时过早。做到这一点的一种方法是拥有大量不同类型的机器人硬件，甚至在仿真中也拥有更多种类的机器人硬件。
领域泛化可能让机器人得到更为稳健的结果，但不会得到最优化的性能。
交互能力是消除机器人「幻觉」的关键。如果没有交互能力，幻觉就无法被消除。当机器人能够与环境进行交互时，它就可以不断纠正自己的认知，这也是机器人与其他 AI 应用之间的重要区别。
三到五年内，机器人会在大多数人中变得相当普及。即使不是每个人都拥有机器人，但人们会认识那些拥有机器人的人，它们会逐渐成为社会的一部分，从消费者家庭到工厂、物流等各个领域。

Founder Park 正在搭建开发者社群，邀请积极尝试、测试新模型、新技术的开发者、创业者们加入，请扫码详细填写你的产品/项目信息，通过审核后工作人员会拉你入群～

进群之后，你有机会得到：

高浓度的主流模型（如 DeepSeek 等）开发交流；
资源对接，与 API、云厂商、模型厂商直接交流反馈的机会；
好用、有趣的产品/案例，Founder Park 会主动做宣传。

机器人领域加速的关键因素：

数据、多模态、硬件成本

主持人：有人曾提到，机器人技术是最古老的领域之一，在过去的历史中发展速度很慢，为什么现在机器人领域开始「加速发展」了？有哪些关键影响因素？

Jim Fan （NVIDIA）：机器人技术是最古老的领域之一，几乎与人工智能技术本身存在的时间一样长。机器人领域发展如此困难的原因在于「莫拉维克悖论」（Moravec's paradox）。这个悖论指出，对人类来说容易的事情，对机器来说却非常困难，反之亦然。比如我们觉得极难的创造性写作，对机器来说可能并不那么难。这也是为什么像大型语言模型（LLM）、自然语言处理（NLP）、计算机视觉这些领域，如今比机器人技术解决得好得多。所以我们现在正面临这个悖论。

我认为机器人领域目前加速发展得益于几点因素：

一是在模型方面。大型基础模型的出现，如 LLM 的「ChatGPT 时刻」的到来，我们现在有了能够进行推理的模型，以及能够理解计算机视觉的多模态模型，因此对三维视觉世界的开放词汇理解能力远超以往，这些都是解决机器人问题的必要但不充分条件。首先必须要先解决视觉问题，拥有一个好的视觉控制系统，然后再追求通用机器人。

二是数据方面。机器人的数据不像是大型语言模型能够来自互联网当中的大规模数据，引用 Ilya Sutskever 的话，他说「互联网是人工智能的化石燃料」，但机器人并没有这种「化石燃料」，所以必须依靠合成数据，以及大规模收集数据。仿真技术，特别是 GPU 加速仿真的出现，让机器人训练数据的问题变得更容易处理。因为现在可以在大约三个小时的计算时间内生成相当于 10 年训练数据量的数据，这确实帮我们超越了数据困境。

三是硬件方面。今天参会的一些最杰出公司的创始人，他们的公司创造了我们所见过的最好的机器人硬件。机器人硬件已经变得好得多，也便宜得多。今年我们看到的硬件价格大约在 4 万美元左右，相当于一辆汽车的价格。而在 2001 年，NASA 建造了 Robonaut——最早的主要人形机器人之一，当时的价格是 150 万美元（2001 年的美元价格）。硬件的价格终于变得负担得起，将很快成为主流。

主持人：Aaron Saunders 在机器人技术还很不成熟的的时期就进入了机器人领域。你认为，机器人技术这几年发生了哪些变化？

Aaron Saunders （Boston Dynamics）：刚才 Jim Fan 谈到了很多机器人领域发展重要的因素，我试着挑几点来展开说说。

首先是机器人「仿真到现实」（sim-to-real）环境之间的差距不断缩小，这是非常关键的进展。长期以来，机器人领域一直在致力于构建既能准确模拟物理现象、又具备高计算效率的仿真环境。我们可以构建非常复杂的模型，精准地再现物理世界，但无法实现实时或超实时地运行。最大的变化是如今能够以超实时（Super Real-Time）的方式模拟现实世界的物理过程，极大地提升了在仿真层面的探索效率，同时能更好地利用仿真技术推动人工智能的开发。

另一个重要变化是机器人零部件的商品化，这要归功于消费电子行业等相关产业的发展，带来了更强的电池、更好的摄像头，以及更先进的感知、计算等技术。大概在十到十五年前，大多数机器人内部还塞满了 PCB 板和电线，电池容量也非常有限。但现在，机器人具备强大的计算能力，搭载微型、低功耗的传感器。机器人零部件的商品化，并不只是反映硬件成本的降低，更是促进机器人创业的浪潮。

同时，全球硬件供应链中涌现出大量可拼接组合的关键部件，机器人公司不需要再从零设计每一个齿轮，而是可以像拼拼图一样，将这些模块组合，在更高层次进行创新。因此，如今的机器人公司更多专注于智能层面的开发，构建应用程序，而不是将全部资源投入到制造物理机器本身。

Deepak Pathak（Skild AI）：我想在 Jim Fan 最初观点的基础之上强调一点，机器人不仅是人工智能的第一个应用场景，它本身就是 AI 的核心。回顾艾伦·图灵在人工智能早期的论述，他设想的 AI 正是为机器人服务的。他主张，我们应该制造可以自主学习的系统，而不是试图直接构建一个「成年人」，我们应该创造一个像孩子一样逐渐成长、学习的机器人。你可以把它放进教室，随着时间推移，它会成长为「成年人」。这是一个极具吸引力的想法，早在 20 世纪 50 年代艾伦·图灵就提出了这个想法。

语言和视觉同样也很重要，但如果我们观察自然界的演化过程，会发现这些能力的出现远晚于物理行动能力。比如我们训练大型语言模型（LLM）所用的数据，可能来自过去 100 年、200 年，最多也就 1000 年。而人类文明的历史远远超过这个时间跨度。所以，并不是语言带来了智能，而是智能的基础早已存在。人类大脑的演化，是基于对物理世界的理解和推理，这也解释了为什么机器人技术如此重要。你无需向任何人解释什么是机器人，人们天然就能理解它，因为我们每天都在进行各类物理操作，每个企业、每个组织都与机器人所代表的实体交互密切相关。

除了 Jim Fan 刚提到的在技术层面的进步外，我认为最大的变化是我们对机器人领域整体思考方式的变化。以往，控制理论一直在机器人领域占据主导阵地，直到三四年前，依然占据主导。实际上控制理论最初并不是为机器人设计的，在二战期间兴起，主要用于飞机和导弹控制。后来艾伦·图灵的思想推动了机器人热潮，人们想「我们能用什么现成的工具？」，于是就沿用了控制理论几十年之久。但这和图灵最初设想的「孩童式学习」完全不同。你不会先教一个孩子学微积分再学走路，也不会让他们先理解关节动力学再学走路。学习本身，是通过经验完成的。

而「从经验中学习」正是当下机器人控制领域的关键变化。例如，此前 Boston Dynamics 发布的一段机器人 Atlas 通过经验学习来实现控制的视频。从「基于编程的经验」转向「通过经验来学习」，是我们对于机器人理解方式的一次重大跃迁。

Bernt Børnich（1X）：我接着这个话题进一步分享。我认为，机器人领域最根本的变化之一，其实来自互联网。过去三十年，全球的每一个人都在向互联网贡献内容，这相当于一次巨大的集体实验。正是这些数据的积累，让我们得以训练出今天的 AI 模型，像魔法一般。而现在我们要做的是，如何把这套机制再复制一次：当然不是让所有人去扮演机器人，而是利用现有的文本、图像等数据，来推动机器人系统的发展。

关键是如何使用这些已有数据去「引导」（bootstrap）机器人，让它们开始做一些有用的事情。一旦跨过这个门槛，它们就能在真实世界中不断学习，而真正的智能恰恰来源于这种长期的真实交互。但前提是它们必须先「足够有用」。举个例子，我说：「去冰箱拿瓶可乐。」如果机器人能做到一半的成功率，那我们就有了一个可行的路径。因为接下来只需要不断尝试及反馈，「这次成功了，那次失败了」，机器人就会在「拿可乐」这项任务上越来越擅长。

我认为，这也正是现在多模态大型语言模型的意义所在，也许多模态大模型无法完全解决机器人或通用智能的问题，但让机器人控制系统变得足够实用，足以支撑起一个规模化的数据飞轮（data flywheel）。这个飞轮可以摆脱每一步遥控操作，让机器人持续自我强化。这很可能是通向非常有用的机器控制，甚至可能是通向 AGI（通用人工智能）的路径。

Pras Velagapudi （Agility Robotics）：针对 Aaron Saunders 刚提到的观点：为什么机器人技术「又回来了」？人工智能起源于机器人，然后发展到其他领域，如今又回到机器人本体，这一点我补充一下，这其实有两个核心挑战：一是硬件本身非常复杂，二是机器人所面对的世界是非结构化的。当我们回顾人工智能与机器人技术的发展路径，会发现机器人技术的大部分精力长期以来都集中在解决「硬件难」的问题上，比如微型传感器（如 MEMS）、执行器驱动技术、储能技术等。这些技术必须逐一攻克。甚至像 Arduino （注：一个软硬件开源平台）这样的平台，也大大降低了让真实物体动起来的门槛，不再需要从零开始「造轮子」。

在 AI 方面，我们则是在不断推进从结构化到非结构化问题的解决路径：从早期解决查询和指令，到 API 接口，到简化的世界模型，再到现在复杂的非结构化世界建模。这些拼图逐步补全了 AI 平台的能力边界，通过寻找新的数据获取方式、借鉴结构化方法的最佳实践，并向更真实的环境推进。比如，「如果不对机器人再加一轮训练，会发生什么？」我们通过分析自动驾驶车辆采集的视频，观察机器人摄像头拍到的第一视角影像，推测接下来世界将如何变化。

所以我认为，背后其实一直在发生一场「能力解锁」的逐步进化。我们如今看到的技术爆发，其实是这场演进达到临界点之后的自然结果。现在，是时候开始真正应对非结构化世界的交互挑战了。

Bernt Børnich（1X）：硬件层面的变化对于机器人领域的快速发展至关重要。过去几年间最重要的变化之一是我们终于能够制造出具备足够稳健性的硬件，让机器人能在真实世界中操作而不轻易损坏。长期从事机器人研究的人都了解，如果每做一次实验就要修复或重建机器人，那实验成本和周期将极其高昂。如今的硬件达到了一个新的水平，机器人可以在现实世界中安全地学习，稳定地执行任务，而不会轻易损坏自身或破坏环境。这是机器人技术能够持续推进的关键前提之一。

具身智能的未来是通用模型，

数据很重要

主持人：你们如何看待人工智能技术在机器人领域所担任的「角色」，如何从专用机器人模型转向通用机器人模型，以及对通用基础模型爆炸式增长如何看？

Jim Fan （NVIDIA）：我可以谈谈英伟达推出的通用人形机器人基础大模型「GR00T N1 」所采用的策略，「GR00T N1」旨在解决「跨实体」机器人控制泛化的问题，即为不同的人形机器人构建一个通用的「大脑」。在构建「GR00T N1」模型时遵循了两点核心原则。

一是模型要尽可能地简单，没有中间步骤。我们追求端到端的模型，基本上是「光子到动作」（photons to actions）。也就是说，从摄像机获取像素输入后，直接输出控制电机的浮点数。端到端模型的优势在 NLP 领域已被验证。以 ChatGPT 为例，它的出现颠覆了 NLP 领域。ChatGPT 背后的模型更为简单，将任何文本映射到另一个文本，底层是一个 Transformer，将一个整数序列映射到另一个整数序列，这种简洁性使得所有数据和问题都能统一到同一个模型中。我认为机器人技术也应该借鉴这一点，让模型尽可能简单。

二是通过复杂的数据策略，对模型数据进行压缩。机器人数据是一个巨大的挑战，无法直接从 YouTube、维基百科等互联网中下载数据。我们采用的策略是把不同的数据看作是一个「金字塔」，分为顶部、中间层、底层。

顶部是真实机器人数据，这是最优质的，因为没有领域差距。通过遥控操作（Teleoperation）收集的数据最为精确，但扩展性有限，受制于每个机器人每天 24 小时的物理限制，在原子世界（现实世界）中的扩展非常困难。
中间层是仿真数据。仿真数据依赖于 Isaac Sim 等物理引擎来大规模生成数据。这些数据是基于真实世界收集的数据，或者通过「从经验中学习」来生成。仿真策略基于 NVIDIA 过去作为图形公司时积累的经验，图形引擎擅长处理物理和渲染。
底层是来自互联网的多模态数据。这些数据用于训练视觉语言模型（VLM），进而支持视觉-语言-动作模型（VLA）。VLM 从大量互联网数据中训练，最近的视频生成模型已经能生成非常高质量的世界神经仿真（Neural Simulation）。金字塔的最底层是神经仿真，它超越了传统的图形引擎。借助这些神经仿真，可以要求视频生成模型来想象一个新的机器人轨迹。由于模型在数百万个视频数据上训练，学习了物理学规律，因此能生成符合物理规律的像素级轨迹。同时结合，我们在「GR00T N1」中提出的「潜在动作」（Latent Action）算法，可以从这些机器人「想象」中提取动作，将它们放回到训练数据中。

通过以上复杂的数据策略，我们将所有数据压缩成一个具体的「产物」，从光子到动作。因此，一个 20 亿参数规模的模型足以解决广泛的任务，这是「GR00T N1」的策略。

Aaron Saunders （Boston Dynamics）：我认为这描绘了一个美好的未来图景，通过一个简单的大模型来解决从像素到运动的所有问题。但在这个过程中，我们需要关注当机器人产品最终进入真实世界时必须具备的确定性。面向客户交付某样东西时，必须清楚其在意外情况下的行为表现，考虑功能的安全性，同时还需注意在现有功能基础上添加新功能时可能出现的退化（regress）情况。

机器人技术的复杂性实际上已经从传统的算法和模型转移到了数据和数据收集上，我们正处于构建数据集的初期阶段。我认为，在追求最终强大模型的过程中，绝不能抛弃整个工具箱（注：这里的「工具箱」可以理解为包括传统方法、新技术、算法等在内的可用资源）。同时，还应维护机器人购买者的信任。

尽管有很多令人兴奋的新能力正在改变机器人技术的格局，但我们不能忽视现实世界的问题。传统的工具在解决这些现实世界的问题时仍然有效，特别是当机器人涉及强大不可控或可能产生危险行为的功能时，或当机器人在人的周围工作时。因此，我们必须使用一个庞大的「工具箱」来确保安全和信任。

Bernt Børnich（1X）：我非常认同 Aaron Saunders 和 Jim Fan 提出的观点。1X 也在朝着类似的方向努力，比如构建一个相对简单的基础通用模型。当我们从早期和晚期的 LLM 的历史中汲取教训时，我认为经常被忽视的是多样性（diversity）的重要性。早期很多公司试图训练一个专门擅长写诗的模型，他们用世界上最好的诗歌来训练，但这并没有取得很好的效果。因为，并没有在与写诗无关的、极其多样化的数据上进行训练，无法实现真正的智能。

同样，在机器人技术中也类似。即使目前的机器人模型仍处于小规模参数阶段，但依然受多样性的限制，而不是传统的数据规模限制。多样性限制是指如何获取涉及尽可能多的任务，涵盖尽可能多的环境，同时最好还包含一些噪声和动态变化的数据，这样机器人才能理解任务的本质。

我最喜欢的例子是打开洗衣机。当我们走近洗衣机时，我们知道要把衣服放进那个洗衣机内槽里，所以我们会尝试找到手柄，若打不开，就进一步找锁扣，再不行就将旋钮转回零位。人类对洗衣机如何工作有很好地理解，因此能弄清楚如何操作一台新的洗衣机。但目前机器人没有这种能力，它们只是学习重复动作。

因此，我认为，让机器人更广泛地应用在现实环境中，获取多样化的数据是至关重要的。我的这个观点可能很「逆向」，但我认为是很重要的。机器人技术的发展必须发生在人群和家庭中，因为这些环境能提供真实且多样化的数据。同时，机器人在这些环境中运行时，安全性必须是「与生俱来的」，即从设计到应用的每一个环节都需要确保安全性，避免对人类造成过度的危险。在以上基础之上，我们再进一步思考如何将这些新方法与传统工具箱结合。

Deepak Pathak（Skild AI）：我认为有两个关键点，第一点是人类，人类可以通过简单的设备（如 VR 追踪服、手套、头显）来控制任何机器人，而不需要了解机器人内部的硬件细节（如电机如何工作）。这意味着可以设计一个通用的控制系统来操作不同的机器人。通过这种方式，我们可以利用任何地方的数据来训练机器人，因为控制逻辑是统一的。

第二点是利用人类行为数据。我们忽视了一个特殊的「机器人」——人类。人类本身可以被视为一种「生物机器人」，其大脑通过运动神经元和感觉神经元系统工作。人类的日常行为（如开冰箱、拿东西）可以提供丰富的数据。每天，人类可能开冰箱十次，这些行为通过视频数据记录下来，可以用来训练机器人。虽然仿真是必要的，但真实的人类行为数据同样重要，甚至可能更具价值。

Bernt Børnich（1X）：我非常同意你们的看法，所有这些数据都极其重要，并且我们也在积极使用这些，这些数据是机器人技术发展的基础。

Pras Velagapudi （Agility Robotics）：作为一名遥操作过多种机器人的人员，我想分享的是，尽管人脑在遥操作平台方面表现非常出色，但实际上性能差异是存在的。硬件的质量在其中起到了决定性作用。我曾经遥操作过 1X 机器人，体验非常好，但对于一些工业机器人，体验则不尽如人意。硬件在性能表现上确实有很大的影响，特别是当它影响到控制性、传感能力和惯性特性时，这对于在现实世界中有效运行至关重要。举个例子，Boston Dynamics 推出的机器人展示了极为出色的动力学表现，机器的动力学特性直接影响了其运动方式，这是显而易见的。

Deepak Pathak（Skild AI）：还有一个典型的例子是达芬奇（Da Vinci）手术机器人。这个机器人广泛应用于手术操作，背后的公司市值已超过千亿美元，核心就是通过遥控操作进行控制。这真是非常惊人。这个例子也意味着，我们都承认人脑非常强大，硬件同样重要。因此，机器人技术始终涉及这两个方面：硬件和方法。它们可能有不同的实现方式，但最终必须结合在一起。所以，问题并不是选择某种硬件或另一种硬件，而是要将真实世界数据、人类活动数据、仿真以及从这些数据中获取的学习相结合。

Bernt Børnich（1X）：我认为，这与自下而上（bottom-up）和自上而下（top-down）的方法密切相关。当前，我们更多的是在讨论自上而下的控制架构，但我认为自下而上的方法也同样值得关注。例如，如何让机器人学会灵巧性（dexterity）？在遥控操作中，我们正在尝试让机器人学习如何快速而灵活地操作手部。我们并不知道如何构建一个既快速又高效，并且能够提供触觉反馈的遥操作系统。但机器人却能够通过与物体的互动自我学习这一过程，如果我们只是给它一堆物体让它练习，它就能学习如何操作。接下来，问题就变成了：如何在遥操作界面上提升抽象层次？换句话说，不再仅仅是操作「捏住」或「抓取」动作，而是通过引导机器人完成任务，并允许系统通过实际操作学习灵巧性。

「一脑多体」是未来，

但实现路径各家有分歧

Deepak Pathak（Skild AI）：机器人技术发展面临的一个关键问题是硬件的多样性。我们是否应该只有一种机器人？还是可以有多种机器人？这些机器人是否可以共享一个「大脑」（即统一的控制软件）？这些问题在机器人领域非常重要，而在语言模型领域则不存在，因为语言模型主要依赖软件（如 GPU 计算），而硬件问题早已被解决。

Aaron Saunders （Boston Dynamics）：我认为，当我们试图将大脑与身体硬件分开时，往往忽视了一个重要问题，即试图完成的任务。如果任务涉及一系列体积小、惯性不显著的物体，可以在很大程度上将大脑与实体身体分开。但我认为，现实情况是，我们现在制造这些机器的目的远不止于最初关注的简单的桌面任务。比如要举起沉重且复杂的物体，或接触锋利的金属板，甚至是处理高温物体等场景，我们希望用机器人代替人类，这时硬件的重要性就显现出来了。

硬件必须与软件协同进化，将一个带有 API 接口的完备硬件平台与任何软件大脑断开连接的想法是不现实的。理解执行器的质量、摩擦力等细节，对于仿真表现可能至关重要。同时，还需要更多时间来完全理解像「GR00T N1」这类通过基础模型如何在不同类型的机器人上应用。因为目前，我们还没有足够的数据来证明一个模型可以在各种机器人上完美运行，且行为没有显著差异。

如果只是试图捡起一袋薯片并放下，可能不重要。但如果尝试拾取一个高精度零件并将其组装到另一个高精度孔中，那就十分重要了。所以我认为，是否能将大脑与硬件完全分开，仍然没有定论，关键在于任务的类型。

Deepak Pathak（Skild AI）：我认为恰恰相反，一个硬件平台上可以有多个「大脑」。就像 NVIDIA 提供的基础硬件平台，许多机器人公司都可以在其上构建机器人的「大脑」。

Jim Fan （NVIDIA）：我认为 Aaron Saunders 提到了一个非常关键的点，即跨实体泛化（cross embodiment）。对一个模型来说，什么是跨实体泛化，需要从人类自身谈起。人类在跨实体泛化方面非常擅长。每当人类开始玩一个视频游戏时，实际上就在进行跨实体泛化。

比如，人类可能在驾驶游戏中的汽车，或者扮演某个奇怪的角色，甚至是非人类角色。在使用了几小时的手柄后，人类会迅速掌握如何控制虚拟游戏中的身体，最后能顺利地玩下去。所以人脑在跨实体泛化方面的能力非常强。我认为这是一个可解的问题，我们只需要找到合适的参数来实现它。

我同意 Aaron Saunders 的观点，目前谈论完全零样本的跨实体泛化还为时过早。也就是说，随便一个机器人，模型就能神奇地工作——我不这么认为。我们还没达到那一步，但总有一天我们会实现它。我认为，做到这一点的一种方法是拥有大量不同类型的机器人硬件，甚至在仿真中也拥有更多种类的机器人硬件。

例如，此前 Meta FAIR 推出的统一模型「MetaMorph」，在仿真中程序化生成了数千个简单机器人，这些机器人具有不同的关节连接方式，有些像蛇，有些像蜘蛛。然后我们使用「机器人语法」对这些机器人进行标记化（tokenize），本质上是将实体转换成整数序列。一旦我们看到这些整数序列，就像 Transformer 论文《Attention is All You Need》提到的思路，应用 Transformer 对这数千个实体进行处理。我们发现，实际上我们能够泛化到第千零一个实体，但这仍是一个非常初步的实验。

我相信，如果我们拥有一种通用的描述语言，并且拥有大量不同类型的真实机器人和仿真机器人，我们可以对它们进行标记化、生成大量数据，这样所有实体就可以形成一个「实体宇宙」（universe of embodiment），一个实体的向量空间，也许一个新的机器人就会落在这个分布之内。

我还想补充的是，这不仅仅涉及技术方面的考量，而是一个非常现实的问题。各位硬件公司创始人都遇到过类似的问题，当你有不同版本的机器人，但上一代的机器人上收集的数据和训练模型无法在 V2、V3 等新版本上泛化，性能显著下降。同时，甚至在同一版本的机器人内部，也会出现差异和微小缺陷，这就是来自物理世界的混乱，也是导致不同的机器人无法完美复制同一个模型的原因。跨代问题更为复杂，跨公司和不同设计的机器人也会面临相同的问题。所以，这个问题很现实，而目前我们才在初期解决阶段。

Aaron Saunders （Boston Dynamics）：但我认为，现在的机器人硬件的多样性差异不大。比如在人形机器人领域，各家都在使用类似的硬件平台，基本上是在复制我们的人体结构。在 Boston Dynamics，我们的夹持器（End Effector）只使用三根手指，这与追求完全拟人化手的趋势相反。因为我们发现，人类能很容易适应用三根手指操作，就像用五根手指一样。可以让一个遥操作员操作三指夹持器，经过几小时的训练，机器人几乎能做到用五指才能完成的所有事情。

所以我认为，这里有很大的探索空间。尽管目前各家机器人公司都在机器人硬件方面「打基础」，但一旦实现模型的泛化能力，会出现更多不同于「拟人化」形态的机器人，这可能是好事也可能是坏事。我认为最终我们可能会得到看起来足够不同于人类、甚至让人感到恐惧的机器人。但就夹持器而言，已经存在如此丰富的机会空间，Agility 的夹持器也与其他人形机器人上看到的完全不同，但它们依然能完成一些相同的任务。所以，我认为这将是未来几年非常令人兴奋的议题。

主持人：Jim Fan 刚刚提到同一款机器人在不同的场景、环境下可能表现不同，这是否意味着这是机器人硬件方面最大的挑战？

Aaron Saunders （Boston Dynamics）：我想再次强调「工具箱」的重要性。如果你的机器人有很好的校准方法，你清楚地知道如何表征它，并且做了很多扎实的工作，那么这些变异性（差异性）问题就不会那么严重了。所以，我认为当你面对一个无法表征、没有校准、差异大的机器人，然后随便给它一个控制器——无论是 AI 策略还是其他什么——你会发现输出有很大差异。但我相信现在我们可以做很多工作来最小化这个差距。

Pras Velagapudi （Agility Robotics）：是的，我认为另一点是，当你将机器人部署到真实世界进行生产时，你会遇到许多变异性情况，并从中获得经验，再将经验会反馈到训练流程当中。例如，机器人 Digit 具有完全通过学习进行的恢复行为。我们一直在真实世界中部署它，它已经应用在生产系统中。通过领域随机化和数据多样性，我们的机器人在面对这些变异性时表现得越来越稳健。

Bernt Børnich（1X）：当你从几百台机器人扩展到几千台时，你就必须面对这个差异化的问题，这是必然的。当我们拥有数千或数十万台机器人时，不可能为每一台调整软件栈。所以我认为这只是必然发生的事情。

我认同你们的观点，尤其是校准的重要性。但我认为更有趣的是，领域随机化实际上是在让机器人的系统保守，即告诉机器人「如果我不知道会发生什么，我最好保持安全」，这样做掩盖了机器人的动力学特性。换句话说，领域随机化可能让机器人得到更为稳健的结果，但不会得到最优化的性能。最终，从长远来看，这种方法很重要。

Deepak Pathak（Skild AI）：我想从一个不同的角度来回答这个问题。无法跨版本更改模型是一个大问题，同时期望世界上只有一家公司拥有唯一的机器人，这是不现实的。就像汽车和手机行业一样，存在多个制造商。而对于机器人领域，我们应该让机器人大脑能够适应不同的硬件平台，就像英伟达 GPU 上的应用开发平台 CUDA 一样，让软件从硬件细节中解耦，这将是机器人领域和其他领域的主要突破。

Aaron Saunders （Boston Dynamics）：我认为机器人确实会产生「幻觉」。这种「幻觉」表现为机器人预期的结果与现实之间的偏差。这种偏差是可以验证的，就像代码生成中的「幻觉」一样，当机器人执行了一个不可行的轨迹时，就会出现这种偏差。

Deepak Pathak (Skild AI）：我认为，交互能力是消除机器人「幻觉」的关键。如果没有交互能力，幻觉就无法被消除。当机器人能够与环境进行交互时，它就可以不断纠正自己的认知，这也是机器人与其他 AI 应用之间的重要区别。

Bernt Børnich（1X）：我们最近做了一个实际的例子。我们有个问题，在办公室的厕所里，经常没人放下马桶圈，我们用 Eve 机器人进行了测试，结果它对马桶圈是抬起还是放下的判断完全随机。这是一个很有趣的案例，也体现了机器人如何通过交互来获得反馈，闭合反馈回路，真正做到从环境中学习。

Aaron Saunders （Boston Dynamics）：现在面临的主要问题是，我们不知道如何在通用任务中做到这一点。我们可以为某个特定任务设计架构，比如处理马桶盖。现在的问题是，如何将这个任务形式化，使得所有任务都基于现实世界。目前没人知道如何做到这一点。在现实世界中学习的速度会非常慢。我们可以通过学习得出结论，因为有后果——比如你掉了东西，重力让它下落，你能判断出发生了什么不好的事情。但如果我们依赖物理机器人来探索，学习速度就更慢了。这又回到了数据混合的问题。你可以做很多小实验，但需要几千次或几百万次才能获得足够的数据。所以，我认为问题仍然是我们是否能承受产生真实世界数据的成本？

Deepak Pathak（Skild AI）：你还可以利用仿真技术。仿真同样可以进行交互，交互数据能兼顾两者。

Aaron Saunders (Boston Dynamics) ：我同意，但仿真也确实需要更多的 GPU 算力支持。

三到五年内，

机器人将在现实世界普及

主持人：在未来两到五年内，大家认为机器人领域未来的发展如何？

Bernt Børnich（1X）：我认为需要十年的时间才能真正实现机器人领域的突破或成熟。十年后，我认为我们将经历类似于几百年前电力普及时的社会变革，就像现在我们早上打开电灯已经司空见惯一样，未来数字和物理领域的劳动力也会变得同样普遍。

同样，我们也会尽力争取在五年内实现，但确切的具体时间没人知道，这取决于社会接纳机器人的速度以及我们扩大生产规模的速度。我们现在正处在机器人变得「有用」的临界点上。我认为我们目前已经有了可以应用于家庭的机器人产品。虽然这些机器人产品并不完美，还不能让你完全不做任何事，但它们既有用又有趣。

而且，从这一点起，我们可以加速发展。希望它们不会像自动驾驶汽车那样，比我们预想的多花十年时间。不过，我确实认为，三到五年内，机器人会在大多数人中变得相当普及。即使不是每个人都拥有机器人，但人们会认识那些拥有机器人的人，它们会逐渐成为社会的一部分，从消费者家庭到工厂、物流等各个领域。

Deepak Pathak（Skild AI）：机器人 AI 与 LLM 或 VLM 有显著区别。LLM 需接近完美才能真正有用，而机器人 AI 无需完全解决问题即可发挥作用。如今，已有大量机器人在实际应用中大显身手，如制造产品等。机器人技术的关键在于任务分解，专用机器人将比通用机器人更早问世，且从一开始就非常有用，特别是在劳动力短缺的领域。

Pras Velagapudi （Agility Robotics）：机器人技术的挑战不仅在于技术本身，还涉及安全性、社会接受度等因素。自动驾驶汽车早在 2015 年就能实现基本功能，但真正的普及仍需克服多重挑战。未来三到五年，机器人数量在某些领域可能超出预期，而在其他领域则可能低于预期。

一点关键点是，机器人技术正从单一用途向多用途发展，尽管还不是通用型，但多用途已成为人们的期望。这种期望推动了投资和精力的投入，也促使社会开始思考为什么不能拥有一个能完成多项任务的机器人，人们对这种技术的渴望是推动行业发展的重要动力。

Aaron Saunders （Boston Dynamics）：目前人们对机器人实现时间的预测差异巨大，机器人公司的创始人可能说明年，而技术专家则认为需要十年甚至更久。不同人对机器人的期望不同，比如汽车在极端天气下也能运行，但人形机器人带来的生活价值却难以衡量。

关键在于应该关注机器人发展的速度和已取得的进展。各机器人公司在不同领域建立了有意义的「滩头阵地」，这些领域将逐渐扩大并相互重叠，但这需要时间。无人能准确预测五年后的发展，但增长和领域交汇是必然的。

以自动驾驶汽车为例，尽管自动驾驶的实现比预期晚，但自动车道保持等功能已逐渐普及，这些进步源于对自动驾驶的追求。同样，人形机器人也会逐步发展。

只要社区保持热情并持续投入，专用机器人将在一两年内实现商业价值。例如，Agility 等公司已在交付商用机器人，未来五年内这些机器人将能完成更多任务。但要解决跨行业问题，仍需长期努力和梦想。整个行业需要几十年的持续投入，才能解决所有边缘案例。

Jim Fan （NVIDIA）：我非常认同 Deepak Pathak 提到的「人们倾向于高估短期，低估长期」的观点。

我认为，在未来两到五年内，从技术发展的视角来看，我们有望系统性地揭示具身智能的 Scaling Law（Embodied Scaling Law）。这一领域目前仍处于探索阶段，但如果我们回顾大型语言模型的发展历程，Chinchilla Scaling Law 是一个值得深思的里程碑——它清晰地描绘了计算资源、数据量和参数规模之间的指数级关系：当资源投入增加时，智能表现呈现出令人惊叹的跃升。

但机器人技术的 Scaling Law 却远比语言模型更复杂。它的缩放维度不仅局限于模型层面的扩展，还涉及硬件集群（真实机器人数据）方面的规模化部署、仿真数据的生成效率，以及互联网数据的整合能力。更值得注意的是，神经仿真（neural dreams）作为一种新兴的虚拟训练方法，其缩放潜力尚未被充分挖掘。

随着仿真技术的进步和大规模视频生成能力的提升，我们或许即将迎来一个转折点，到那时，我们能清晰地知道投入多少 GPU 资源会带来怎样的性能提升。