李飞飞最新访谈：人工智能如果没有空间智能是不完整的【智库观察】

点击蓝字

关注我们

2025年12月17日，金融时报发表题为《世界实验室的李飞飞：人工智能如果没有空间智能是不完整的》（Fei-Fei Li of World Labs: AI is incomplete without spatial intelligence）的访谈，本次访谈围绕李飞飞作为 World Labs 创始人所提出的“空间智能”研究路线展开，重点介绍其世界模型（world models）产品 Marble 的技术愿景、应用版图与产业影响。整体论述强调：生成式 AI 的下一阶段不仅在语言层面扩展能力，更应在三维空间与具身交互层面建立可理解、可生成、可操作的“世界表征”，从而在创意生产与机器人等领域形成新的基础设施。

要点一研究目标与问题意识：World Labs 将自身定位为前沿模型公司，核心命题是：若缺乏与人类相当的空间理解与生成能力，AI 的智能形态仍不完整。

要点二关键概念：提出以“世界模型”实现“空间智能”，区别于以文本为主的语言模型所对应的“语言智能”；空间智能面向具身智能体（人类、虚拟化身、机器人）在世界中的理解、推理、创造与交互。

要点三 Marble 的产品定义：Marble 作为首个产品，支持用户从照片或短视频“提升”为三维世界，或直接生成想象空间，目标是将 3D 世界生成嵌入创作者的工作流程。

要点四模型优先与反馈闭环：强调“以模型为先”的产品路径，通过真实用户使用与反馈来迭代模型能力，形成面向创作者的共创式改进机制。

要点五应用场景的横向扩展：Marble 被描述为通用型（horizontal）基础技术，已覆盖 VFX/虚拟制片、建筑与室内设计可视化、机器人仿真训练环境构建、游戏开发资产生成与下载集成，以及心理与临床研究的沉浸式实验环境等。

要点六统一价值主张：各类用例共同指向“显著节省时间成本”，尤其在创意迭代链路（构思—可视化—修改—再构思）中缩短循环周期，提高试错密度与产出效率。

要点七对劳动力与创造的判断：访谈将效率提升理解为对创造力的“增益”而非替代；在“创造力无界”的前提下，节省时间更可能转化为更多方案探索与更高质量迭代，而非简单收缩创作活动。

要点八对游戏与内容生产的影响：认为 3D 世界生成将推动游戏开发与相关引擎生态的重构，并与“跨媒体”（transmedia）内容趋势耦合，使游戏与教育、体验、生产力场景进一步融合。

要点九与 LLM 的关系：明确主张多智能协同——世界模型并非取代 LLM，而是补足空间维度，与语言等多种智能共同构成更接近人类的“智能协奏”。

要点十机器人路径的现实约束：强调机器人距离成熟仍远，关键瓶颈在数据；主张真实遥操作数据、网络数据与合成仿真数据的组合，并指出仿真环境与合成数据对推进具身智能至关重要。

要点十一价值立场：对“超级智能”表述保持克制，强调北极星是“对人类友善、以人类福祉为导向”的智能系统，技术应服务社会与人类需求。

以下为采访全文：

斯坦福大学教授、计算机科学家李飞飞（Fei-Fei Li）被普遍认为是“人工智能教母”。作为人工智能领域最具影响力的观点倡导者之一，李飞飞最为人所熟知的贡献，是其主持构建了 ImageNet——这一约二十年前建立的数据集体系，已在很大程度上奠定了现代计算机视觉技术发展的基础。当前，她以初创企业创始人的身份，投入一项新的研究与产业化使命。

她最新创立的公司 World Labs 致力于发展所谓“空间智能”（spatial intelligence），其核心目标在于使人工智能能够理解并表征人类所处的物理世界。该公司正在研发“世界模型”（world models）：不同于仅处理语言符号的语言模型，世界模型旨在生成并操控三维世界表征。其最新世界模型 Marble 于 11 月发布。

Cristina Criddle

我希望进一步了解 Marble 的定位与能力。

李飞飞

World Labs 是一家前沿模型（frontier model）公司，我们的工作重点在于构建最尖端的模型并推动人工智能研究边界。在我看来，若人工智能缺乏人类所具备的空间智能之广度、深度与能力，其智能形态仍是不完整的。

Marble 是我们的首个产品，目标是支持用户生成高质量的三维世界：用户既可以将现实世界“提升”（lifting）为三维内容——例如通过一张照片或一段短视频输入 Marble；也可以通过 Marble 构建完全想象的世界。

因此，无论输入来源真实或虚构，Marble 当前的产品目标是实现三维世界生成，并使之能够嵌入创作者的工作流程之中。同时我们强调“以模型为先”的路径：希望用户通过产品实际使用模型能力，从而形成有效的反馈闭环。

Cristina Criddle

你希望从用户与模型的交互中获得哪些方面的学习与改进？

李飞飞

我坚信人类创造力无法被替代。更合理的理解是：创造力可以被工具显著增益（superpowered）。我期待 Marble 能成为创作者、设计师与开发者之间的“增强型协作”机制。用户使用越充分、反馈越具体，我们就越能理解如何在实践中更有效地增强他们的创造性能力。

一张由人工智能生成的图像，描绘了一个类人角色正走上山坡，走向一个充满未来感的玻璃球体。

使用 Marble © World Labs创建的 3D 世界

Cristina Criddle

你们目前设想或观察到的关键应用场景有哪些？

李飞飞

这是高度“横向”（horizontal）的基础技术，因为对世界模型的需求范围极其广泛。例如，在视觉特效（VFX）产业中，它可用于快速预览创意方案、支持虚拟制片（virtual production）流程、以及进行电影场景的构思与迭代。

Marble 集成了多种 VFX 能力：它能够构建三维空间，并在该空间内生成带有精确色彩控制的视频；同时支持以多种格式导出，以便接入既有工作流。

我们也观察到室内设计师与建筑师使用 Marble 来进行方案可视化，并可在生成空间中进行“漫游式”体验——这类似于把“心象”（mind’s eye）转化为可沉浸探索的环境。

此外，机器人仿真开发者将 Marble 用作构建仿真训练环境的基础，以支持机器人导航或操作（manipulation）任务的训练与评估。

我们也看到游戏开发者的采用：我们提供了网格碰撞体（mesh colliders）与网格结构（mesh structure），使开发者能够直接下载三维世界与网格资源并快速集成到玩法开发中。

还有研究者希望将 Marble 作为沉浸式实验环境，用于研究人类心理过程与临床相关问题。

目前我们看到的诸多用例存在一个共同特征：显著节省时间成本。因为构思（ideation）、打磨（iteration/abrasion）与使用构成一个循环过程；Marble 可以帮助技术美术、开发者与研究人员缩短循环周期、提高迭代效率。

Cristina Criddle

但“节省时间”会带来怎样的社会后果？这会成为裁员的理由，还是会释放出新的创造？

李飞飞

这取决于你认为创造力是“有界”的还是“无界”的。我倾向于认为人类创造力具有无界性。

例如，在我们与索尼工作室合作制作 Marble 演示视频时，虚拟制片技术美术与开发团队反馈：借助 Marble，他们能够在同等时间内尝试更多创意方案；而在传统流程中，将单一想法可视化往往需要较长等待。Marble 将这一过程压缩到以分钟计的尺度。

我们与 VFX 行业的交流中，有从业者估计其构思与开发速度可提升约 40 倍。这一效率增益本质上释放的是“可用于创造的时间”。创作者通常并非只有一个创意：可能有十个、十个又会衍生更多，并需要反复微调；而在传统流程中，这些迭代往往代价高昂。

Cristina Criddle

在游戏领域，这可能意味着什么？也有人讨论：如果可以直接生成 3D 环境，游戏引擎的角色是否会发生变化？

李飞飞

我认为相关生态存在被重构的可能。受神经机制启发的引擎与仿真类游戏引擎仍有显著改进空间，其目标应当是降低开发者与创作者的负担、提升生产效率。Marble 以及我们更早发布的世界模型 RTFM（10 月发布）都属于新一代生成式 AI 的前沿探索。

同时，游戏正在从纯粹娱乐形态向体验、教育与生产力工具融合。创意与内容领域也出现所谓“跨媒体”（transmedia）趋势；该趋势同样能够利用 Marble 等生成式工具来构建多模态内容与体验。

Cristina Criddle

“世界模型”近来在我与 Google、Runway 的交流中频繁出现，我也报道了 xAI 在构建世界模型。那么，World Labs 的差异化竞争力在哪里？

李飞飞

首先，我们是两年前最早明确以“空间智能”为核心目标的公司之一。我将大型语言模型视为实现“语言智能”的一种路径；而世界模型则是实现“空间智能”的关键路径。

所谓空间知识（spatial knowledge），是一种支持具身智能体（embodied agents）——无论人类、虚拟化身还是机器人——在世界中进行理解、推理、创造与交互的认知能力。这是动物、人类以及未来机器人所依赖的深层能力，也是我们研发工作的“北极星”（North Star）。

Cristina Criddle

若达到这一“北极星”，大型语言模型是否仍然重要？

李飞飞

当然重要。人类智能本质上是多元智能的协同：语言、空间、数学、情感等共同构成一套“协奏系统”。霍华德·加德纳在 20 世纪 80 年代提出的多元智能理论，也为此提供了理论参照。人类是多元智能协同的典型实例。

Cristina Criddle

你提到机器人仿真。由计算机中探索虚拟世界走向具身 AI 的空间智能，二者之间的跨度有多大？

李飞飞

首先需要强调：用户可以上传真实世界图像或视频，并将其转化为机器人可用的虚拟数字世界。机器人在虚拟环境中的训练，乃至在虚拟环境中的部署，都是解决机器人问题的重要组成。

但我们距离真正解决机器人问题仍然很远，因此必须对“数据问题”保持清醒认识。

从当前机器人学习实践来看，核心数据来源通常包括：真实世界的远程遥操作数据（tele-operated data，即人类远程示范动作数据）、网络数据，以及合成仿真数据（synthetic simulated data，由计算机生成）。而在数据问题上，自动驾驶行业已历经数十年探索；即便如此，自动驾驶仍比机器人更“容易”，因为自动驾驶主要涉及相对受限的运动模式，而机器人需要在开放世界中进行多样化的操控与交互。

因此，构建仿真环境、生成仿真数据与合成数据，是实现突破的关键。正因如此，我们所研发的空间智能——以世界模型的形式——具有重要意义：它不仅服务于创意生态，也将为未来融入机器人生态奠定基础。

Cristina Criddle

你认为这是否意味着迈向“超级智能”的一步？World Labs 是否以超级智能为目标？

李飞飞

我们的“北极星”是一种对人类友善、以人类福祉为导向的智能。我并不执着于命名——无论称其为 AI 还是其他。人工智能作为工具，应当服务于人类与社会；我认为这应当成为每一位研究者、技术人员与企业组织的首要关注点。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

李飞飞最新访谈：人工智能如果没有空间智能是不完整的【智库观察】

评论列表

评论