
作为PAMI Mark Everingham奖得主、MIT TR 亚洲区35岁以下创新者以及新加坡总统青年科学家奖获得者,刘子纬不仅以一系列奠基性的研究在学术界留下深刻印记,同时也通过Google Clips、Microsoft Pix等产品将前沿技术带入真实世界。
在本次专访中,他将系统阐述对世界模型三条技术路径的判断、对多模态融合“频谱空间”的假说,以及团队在Neo架构中探寻“第二条增长曲线”的探索。在他看来,真正的智能不仅要理解世界的静态结构,更要捕捉其内在的动态性、交互性与物理一致性。这也是下一代AI系统必须跨越的根本挑战。
采访:李梦佳 编辑:宇轩、陈然
要点速览
关于世界模型的三大技术路径:当前世界模型主要有三条路线:基于2D视频的路线,效果快,但缺乏物理一致性;基于3D/4D重建的路线,物理真实,但数据稀缺;以及隐空间心智模型路线,潜力大,但处于早期。前两条路径相对领先,但分别面临架构突破与数据扩展的核心瓶颈。
关于Neo与“第二条增长曲线”:其团队的最新工作“Neo”初步验证表明该架构具有极高的数据效率——仅用十分之一的数据量,就能达到当前许多桥接式多模态模型或世界模型的效果。他认为,当第一条依赖数据规模的增长曲线接近饱和时,第二条增长曲线将来自更丰富的模态、更早期的融合以及更深层的交互设计。
关于AI生成电影的艺术核心:要实现具有艺术感的AI生成,关键在于多奖励函数融合。捕捉电影中运镜、情绪等“长尾”细节是第一步,而生成与编排则需要融合代表不同审美品味与民族情感的多种奖励函数,这是下一代AI艺术生成的前沿方向。
关于多模态融合的未来突破:语言(低频语义)、视觉细节(高频纹理)、动作姿态(中频)等不同性质的信息,不应被强行压缩到同一语义空间,而应在一个共享的频谱空间中共存与协调。其团队的最新工作“The Prism Hypothesis”为多模态融合提供了全新的理论视角和可能路径。
01
从导师身上学到的:格局、细节与本质
“眼界决定方向,细节决定影响,本质决定深度。”
采访者:您师从名家,比如汤晓鸥、王晓刚教授以及Stella Yu等等,想请问这几位导师在学术风格和科研价值观上给您带来了什么样的深刻影响?
刘子纬:这几位导师对我的影响非常深远。汤晓鸥老师最早在视野格局上启迪了我。2012年深度学习尚未被广泛认同时,他就率先看清趋势并全力投入,无论是大规模购置GPU还是转向数据驱动范式,都体现了他的远见。他教会我:眼界决定方向,同时要在资源上给予学生最强支持。
王晓刚老师让我树立了对质量的极致追求。他在计算机视觉领域已达顶尖水准,从中科大少年班到麻省理工的历程本身便是典范。他让我深刻认识到,对工作质量必须保持极高要求。每一份成果,都应立足于让世界顶尖团队读后有所启发;他对细节的追求近乎严苛——论文中每个数字的来历、方法里每一处表述,都必须严谨无误。因此,他带给我的核心教益是:对自己做的每个工作都要极致从严,不放过任何细微之处。在世界级团队的竞争中,胜负往往取决于细节。
博士后导师Stella Yu培养了我的科学审美。她从神经科学转向计算机视觉的跨学科背景,让我学会不仅要关注工程实现,更要追求学术的优美与本质。她让我明白,应尽量避免陷入过于琐碎、枝节的问题,因为那些问题很可能随着新范式的出现而轻易化解;相反,应当去攻克更具普遍性的核心难题。科学史上那些根本性问题的解法,往往兼具优雅与深刻。因此,我们必须以科学与工程并重的态度,从更本质、更优美的科学视角展开思考。

图注:刘子纬图片(图源机器之心)
采访者:您有不少代表性、标志性的成果,比如CelebA这类数据集工作,长尾识别以及提示学习这类方法框架工作。如果让您选择一项或几项最能代表您研究理念的代表作,会是哪些呢?
刘子纬:我的研究可以划分为三个主要阶段,每个阶段的工作都对应着不同的范式创新。
第一个阶段是博士期间关于CelebA的一系列工作。这项工作具有双重意义:首先,它是数据驱动的 AI 范式的早期实践(2012-2014)。此时,AI正从规则驱动转向数据驱动。我们与ImageNet几乎同一时期,创建了以人为中心的数据集CelebA。这个数据集后来获得了计算机视觉领域的“时间检验奖”——PAMI Mark Everingham Prize,它成为了后续一系列生成式 AI 研究(包括 GAN、扩散模型等)的基准数据集。其次,我们是大规模预训练的最早探索者之一。2013-2014年,大家对预训练还很困惑的时候,我们在以人为中心的数据集上证明了预训练能带来很强的泛化能力,预训练的质量与模型在下游的属性识别任务上的性能有显著的正相关性。
第二个阶段是博士后到教职初期(2019-2021)。这个阶段有两个代表性工作:首先,我们首次系统性地将“长尾预测”问题推到了计算机视觉和 AI 研究的舞台中央。过去,大多数的研究要么关注ImageNet那样的均衡数据,要么解决极端的少样本问题,而我们从宏观视角探索了“数据不均匀场景下的学习”这一根本问题,这项工作也启发了很多大模型时代的后续研究。在此基础之上,我们发展出“Learning to Prompt (CoOP)”,将可学习的提示词引入多模态大模型,用于解决新类别、新领域的适应问题。这项工作已经成为了许多基于 CLIP 做微调的研究都会引用的论文。
第三个阶段是做教职后(2022-2024)我们近期重点关注三维视觉。我们在三维视觉的“人”、“物”、“景”这三个方向都做出了开创性工作,基本确立了这些子领域后续发展的技术范式。目前很多基于3D视觉探索世界模型的研究都沿用了我们提出的范式。
02
对Neo的期望:寻找“第二条增长曲线”
“Neo架构验证了其高效的数据效率,我们正以此探索第二条增长曲线。”
采访者:那我们再谈谈世界模型趋势,从技术路线的角度来看,您认为哪条路更能通往世界模型的奇点?
刘子纬:在当下的时间节点,我们还难以对世界模型的发展趋势做出判断,但是可以放眼到更长的时间尺度上来思考这一问题。
世界模型的发展目前主要有三条不同路径,每条都有独特的优势与挑战。
第一条是基于2D视频的路线。它通过让模型学习互联网上的海量视频来学习视频背后蕴含的世界知识,代表作包括Genie3 等。短期内,这条路线最容易看到“惊艳”的视觉效果,是实现游戏、VR等交互功能的最快的方式。但它面临两大根本挑战:生成内容难以保持长程一致性,缺乏物理上的真实性。要突破这些瓶颈,要么依赖未来随着海量数据的积累出现 Scaling Law 带来的质变,要么需要引入记忆等新机制。
第二条是3D、4D路线,以我们最近的一系列工作和李飞飞老师World Labs提出的 RTFM等为代表。通过显式的三维建模,这条路天然解决了长程一致性和物理真实性的问题。然而,这条路线难以扩大数据的规模。互联网上极少有现成的3D数据。要突破这点,要么如VGGT那样,找到从2D视频中准确提取3D信息的方法;要么通过AI眼镜等新型设备采集真实世界的3D数据,例如我们团队正在孵化的spin-off项目Ropedia。
第三条是Yann LeCun等学者倡导的 JEPA 路线。他们研究的重点并非对世界细节的像素级重建,而是认为世界规律可被压缩在隐空间中,这更像是一种“心智模型”。这条路目前处于早期探索阶段,虽在中等规模实验中展现出潜力,但能否在大规模训练下超越大语言模型、实现真正的原生多模态,仍有待验证。这条路线处于研究早期,具有很大的潜力。
采访者:您能再多介绍一下您最新的Neo工作吗,Neo 是否解决了“新架构”的问题?
刘子纬:是的,在构建世界模型这类统一模型时,其核心目标是理解和生成世界,这要求模型架构从以文本为核心转向以视觉为核心。由于语言模型发展的比较早,当前多数所谓的“原生”多模态模型仍以强大的语言模型为主干,仅通过桥接方式接入视觉编码器。这种模式虽在短期有效,却存在根本局限:其一,语言主导了模型90%以上的信息与知识表达,视觉模块的调整空间和影响力实际非常有限;其二,这种方式的可扩展性有限。
未来,真正的统一模型可能需要用一个架构融合文本、图像、视频、3D等多种模态。这种融合难以仅靠“桥接”实现,而需要在架构设计之初就支持模态间的充分交互。这正是我们启动“Neo”项目的出发点——探索一种能真正容纳所有模态、支持深度融合的模型架构。
通过“Neo”,我们证明了这种架构具有极高的数据效率——仅用十分之一的数据量,就能达到当前许多桥接式多模态模型或世界模型的效果。因此,我们后续将继续开展大规模探索,验证这条路是否能开辟出第二条增长曲线。最近,Ilya 也说单纯依赖数据规模扩展的 Scaling Law 可能已接近饱和。这第二条增长曲线,或许正来自更丰富的模态、更早期的模态融合,以及更多的交互设计。这正是我们当前希望持续探索的方向。

图注:原生视觉-语言框架概览(来源:arXiv)
采访者:就像您刚才提到,比如李飞飞的World Labs,以及英伟达、Meta等大厂,他们都在推自己的世界模型,应用在自动驾驶、机器人、元宇宙等产业化层面。从具体应用层面来讲,哪些应用场景更有希望加速世界模型的落地呢?
刘子纬:从当前发展来看,世界模型的下游应用主要聚焦在三个方向,各家公司根据自身战略有不同的优先级安排:
短期内,最容易做到的是“交互式内容”。这一方向的商业化潜质已经逐渐凸显,特别是最近 Sora2 等相关产品出来之后,很多人会在不同场景下尝试新的故事线,制作新的梗图。如果和世界模型结合,就是要做相对实时、用户可交互的内容,比如用户可以在一个空间里探索、走动,创造新元素并进行交互。这种交互偏2D形态,可以想象成新形态的抖音或小红书。
第二种交互形态偏向于AR和VR,需要往3D方向进行延伸。这种情况下,世界模型不仅仅是模型创新,更是模型和整个界面的双重创新。这里的界面指用户接入的入口。长期来看,有没有可能未来所有信息入口从手机变成头显?如果进入头显时代,世界模型的作用是什么?我们需要的表征形态是否一定是3D的?VR里,3D可能是更适合的表征,这条路也更适配。
第三条路是很多人想用世界模型赋能物理智能,物理智能有两个较大领域。第一个是自动驾驶,现在国内外很多公司都尝试用自家的世界模型做仿真器;第二个是机器人,机器人领域最大的问题是数据瓶颈,其中一个解法就是通过世界模型提供生成式仿真数据。
总的来看,这三个方向都有人在走。第一个方向偏ToC的实时交互内容;第二个方向也偏ToC,在一定程度上有小的ToB,因为AR、VR需要和头显厂商合作;第三个方向则聚焦于物理智能,包括自动驾驶和机器人等领域,是纯ToB的方向。
03
AI电影艺术的核心:多奖励函数融合
“包容多元艺术与民族风格,需要融合多种奖励函数。”
采访者:之前看到您介绍Cut2Next的文章,其中关于AI生成电影、叙事语言的内容我们很感兴趣。想请教一下,目前有个讨论是,模型如何既能捕捉人类的艺术感觉,又能包容多元的创作风格?您怎么看待未来“AI+”模式下的电影新审美?
刘子纬:这其实是一个非常宏大的课题。
目前来看,最大的难点涉及以下两个方面:第一是如何从电影中捕捉那些最细微的细节。这一点目前难度很高,人类艺术最有价值的地方恰恰是那些长尾部分。越泛滥、越普遍的内容,反而不是艺术性最强的。很多人看电影时,会关注其中的运镜、小细节和微情绪,这些才是最重要的。但无论是现在非常强大的 Gemini 3 等多模态模型,还是其他专家类模型,都比较难做到这一点。所以我们当时的研究重点是想通过多模态的方式先捕捉到这些细微之处,例如从ShotBench到ShotVL的一系列工作。如果连捕捉都做不到,后续的生成、编排就更无从谈起,所以捕捉肯定是第一步需要解决的问题。
第二点就是所谓的生成和编排,这其实和现在大家讲到的奖励函数这件事非常相关。现在大部分研究如果只靠常用的「Next token Prediction」,或者像素级的生成,其实没办法生成那些最细微的内容,比如运镜、光影的一致性以及光影在不同地方的分布等等。这些问题没法靠现在的监督微调来解决,需要引入强化学习。强化学习的奖励信号其实代表了某种品味或者审美。如果要包容人类史上或艺术史上不同的风格、不同民族的风格,其实就需要多种奖励函数的组合。很多时候大家觉得有些电影非常不错、很精彩,就是因为它包含了不同元素、不同民族的情感,这可能就是多种奖励函数融合在一起的结果。在影视级、艺术级的生成中,更多需要考虑通过多种奖励,学习不同的价值观、不同的艺术审美,这可能也是下一个前沿方向。
采访者:怎么实现电影的风格化?如何让AI生成一个诺兰风格的电影?
刘子纬:风格化其实蕴含两个层次。第一个层次是诺兰的单帧美学。观众能够察觉他镜头中的个人特质:偏好宽画幅构图,常将主体置于画面的三分之一处。这些鲜明的视觉特质,大多数是能够被捕捉并学习的,只需将诺兰电影的单帧画面输入生成模型进行模仿即可习得。

图注:《魔道争锋》,克里斯托弗·诺兰(来源:豆瓣)
而当前更具挑战的,在于如何像诺兰那样进行叙事编排,即不同镜头之间如何有机串联。诺兰在叙事转场中惯用多线并进的手法,让两条故事线并行展开,并借助某一具体物件实现情节间的巧妙交织与勾连。我们发现,目前的多模态模型乃至世界模型,普遍未能把握这种叙事结构。它们缺乏在时空交错的语境中,识别恒定要素或风格线索的能力。为此,我们在所提出的Cut2Next模型中,将传统的注意力机制拓展至更宏观的尺度。例如,跨越时空交错的维度,或是镜头与镜头之间的叙事层面,以期捕捉这种更高层次的风格化编排与变化。
采访者:您主导了之前提到的CelebA和DeepFashion等知名数据集,这些数据集极大推动了视觉生成领域的发展。当前生成模型对高质量数据的依赖仍未完全解决,您认为未来在数据构建上应该如何突破标注成本高与分布偏见这两大痛点?
刘子纬:我觉得这个时代反而比之前更需要一个高质量且无偏的生成类数据集,我们自己也在做一些努力。要克服标注成本高,同时尽量做到无偏见、分布广,这件事其实需要考虑以下两个方面。
第一个点是如何通过可拓展性降低大规模数据集的标注成本。我们需要了解现在所有模型的边界,这极其重要;因为在这个时代构造数据集极其需要人和模型的协作。比如现在很多AI类创业公司,他们大多不做自己的基础模型,大部分是在现有模型或者API基础上搭了几层应用层。但他们有一个很好的意识和认知,就是知道每个模型最擅长的点是什么。有点像我们要开一个标注公司,标注数据集的不同方面需要招不同的人。而现在世界上已经存在一些非常强的模型,包括开源和闭源模型。每个模型擅长的领域不一样,正好相当于不同的标注专家。如果我们能够搭建一个类似模型工具库的东西,就可以通过这个半自动环路系统来降低标注成本,不需要那么多人去参与。我们知道每个模型的上限和特长所在,这样就可以充分发挥人和模型的协作优势。
第二个点是如何做一个真正无偏、分布足够广的数据集。我觉得大部分人做数据集做得不够深入,大多是因为对数据的第一手了解不够。我当时做CelebA和DeepFashion的时候,基本上算是对着新收集进数据集的每一批图片看了整整一年。通过看每个数据的过程能获得一种“灵感”。李飞飞当时的学生邓嘉也分享过,他们做ImageNet的时候基本上也自己看过大部分图片,要做pixel的朋友。这给大家的启示是,不能把每一张图片看成单独的数据点,它背后其实是一个丰富的分布,比如一张图可能同时代表了长宽比、视觉质量、语义元素、元素关系等的联合分布。需要看到图片背后的现象,基于这些现象设计一些改进的准则,比如如何平衡覆盖率和长尾率。我们最近开源了LLaVA-OneVision-1.5,当时做数据的几大根本准则都是通过看数据学到的。我们也证明了,通过利用这一套开放数据,训练后的模型也能达到Qwen2.5-VL的水准。

图注:LLaVA-OneVision-1.5性能表现(来源:arXiv)
04
看多模态的未来:“频谱空间”假说
“或许可以用一个频谱空间来协调不同性质的信息。”
采访者:您之前的报告中提出了从多模态生成模型走向动态世界建模的方向,能否具体阐释您理解的动态世界模型的核心内涵?与传统静态的3D重建或单模态生成相比,动态世界建模在物理规律一致性和时空连贯性上有哪些独特的技术挑战?
刘子纬:在我看来,动态性是世界模型的核心,这个判断正被越来越多新工作所印证。
早期我们关注静态世界模型,比如生成全景图或高精度3D物体,这些工作追求的核心是空间维度的质量,往往以网格精度或细节保真度为卖点。但这与我们期待的世界模型存在本质区别。真正的世界模型应当揭示世界的运作规律,这包含三个层面:一是内在因果规律,二是智能体与世界的交互,三是智能体之间的交互。这三个层面背后对应着不同的理论假说,也带来了静态模型中完全不存在的核心挑战。
物理智能是动态的。60年代"主动猫与被动猫"的神经科学实验已经证明:只能被动接受信息的猫会丧失关键能力,而能主动探索的猫则获得智能提升。这表明物理智能必须在动态交互中发展。
具体来说,动态世界模型的挑战包括:第一,理解世界的变化规律,包括物体运动、光照变化等所有动态交互,这是具身智能的基础。第二,掌握直觉物理规律,如水流运动、物体碰撞等需要快速判断的现象。第三,探索社会智能,理解多智能体间的交互与合作,以及人和智能体的交互。比如我们之前的EgoLife项目,尝试捕捉6个人生活一周的状态,看大家如何交互、有什么意图、如何合作,这件事很有意义。
其实动态世界模型的核心在于掌握物理规律变化、实现人境交互、理解社会智能这三个层面。我觉得这三个层面现在都处于非常早期的阶段,非常值得大家继续去做研究。

图注:EgoLife项目概览(来源:arXiv)
采访者:关于世界模型构建中多模态信息的融合,比如文本、2D视频与3D、4D几何信息等都是核心难题。能否谈一谈在融合不同模态信息时,如何解决模态间隙和语义对齐的问题?未来多模态融合的突破点可能在哪里?
刘子纬:真正有能力训练世界模型基础模型的团队并不多。可以预见,未来会诞生一批此类模型。而从最近的NeurIPS最佳论文来看,不同基础模型之间的表现差距其实不大,结果往往相近。那么未来的核心挑战,可能在于如何将控制信号或多模态信号有效输入并融合进模型中。
目前,大家主要融合的是2D信号,但未来必然会引入更多3D信号,比如相机轨迹和人体姿态等复杂信息。问题在于:新信号的加入往往会削弱原有信号的效果。这源于当前多模态模型常采用的“桥接式”设计,它们通过连接器实现模态交互,却忽略了模态之间早期的对齐与交互的必要性。如果模型已经围绕语言或某类2D信号构建,那么任何新知识都必须被强行投影到该既定表征空间中去。
此时,若不改变基座模型的架构,就必须将其他模态向主导模态对齐。这就是多模态融合的第一种路径——对齐式融合。这类对齐主要在特征层面和分辨率层面进行。许多现有的位置编码技术,就可视为一种对齐手段,很多3D信号正是通过这类方式融入模型的。
第二种路径更为激进,也更有想象力:不同信号是否必须对齐到同一空间,其实值得反思。尽管Phillip Isola等人提出的“柏拉图假说”认为各种模态的表征终会收敛到同一共享空间。现实世界中,语言与视觉所承载的信息性质并不完全相同。语言偏重高层语义,而视觉除了语义外,还包含大量难以言说的高频细节,比如“风吹麦浪”四字带来的意境与一幅真实画面的体验差异显著。因此我们在最新工作“The Prism Hypothesis”中假设:或许可以用一个频谱空间来协调不同性质的信息。语言对应低频,视觉细节对应高频,姿态、运动等可能属于中频。让它们在频谱中和谐共存,而非强行压缩至同一语义空间,这可能是更自然的融合方式。
第三种是我们最向往的大一统路径,即类似Neo的设计。彻底摒弃独立的编码器,模态之间本无贵贱之分,语言、图像、3D都应从一开始就以完全平等的方式自然交融。这条路径最难,因为它需要全新的架构和数据范式,但也可能拥有最高的上限。


2026见分晓!自变量王潜揭秘具身智能唯一破局之路丨智源专访
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢