独家｜世界模拟器才是AGI终局，12态势预测！首席专家万字长文专业解读Sora里程碑

新智元报道

作者：胡延平

编辑：好困桃子

【新智元导读】生成60秒逼真视频，只是未来的一个小功能，母模型根科技原力觉醒。来自未来实验室的首席专家胡延平就爆火Sora模型做出了深度的个人解读。

这几天反复看Sora的技术报告，以及各方对Sora的技术分析。

基本三个角度：惊呼强大功能，分析Sora（实现）大法，评估巨大冲击。

冲击方面，主要关注点在于对影视、短视频、娱乐等领域的影响。

但是，Sora改变AI认知方式，开启走向「世界模拟器」的史诗级的漫漫征途，才是未来暴风眼，真正的重点。而世界模拟器，是远比AGI、具身智能、元宇宙更炸裂的智能未来。

Sora技术报告最有价值、最语焉不详、最容易产生不同理解的一句话是：「通过扩大视频生成模型的规模，我们有望构建出能够模拟物理世界的通用模拟器，这无疑是一条极具前景的发展道路」。

而本文所述世界模拟器，与Sora目前自述以及业内理解，可能不太一样。

很显然要么是Sora言过其实，要么是OpenAI留了一手，要么是现阶段技术局限使然。

1. Sora只是二维视觉的压缩扩散和时空表达，不是物理引擎，也不是世界模型

相比「现实不存在了」这种既乖张又夸张的表达，专业人士的意见貌似客观，但实际偏差也不小。

Sora不是英伟达高级科学家Jim Fan所称的数据驱动的物理引擎、一个可学习的模拟器或世界模型，也不会像周鸿祎所言能够让AGI一两年内就很快实现。

从LLM的文本Token/向量表征，到走向模拟器但还不是模拟器的Patches表达，是原理变化的核心。

技术报告在原理部分高度保留，极为简略，但其中一张图比较重要。Sora基于Transformer但是对Transformer进行了有力进化，结合了Difussion，Patches是关键。

不过Sora怎么看都还只是二维视觉的时空表达，处处压缩，Patches依然是图像内容关系信息，且有文本烙印，并不是物理世界规律的多维表征。世界模拟器前面加个定语——二维视觉世界模拟器，也许更准确。

三维图像是数字世界的空间构建，二维视觉其实是像素的运动变化组合。三维、二维视频都可以看上去像是「物理的」，但实质可以只是运动变化拟合了物理规律，而不是像粒子渲染、工业仿真一样进行了物理规则、内在性状的数字构建。

背后原因，如同你知道大模型输出的答案，知道大模型的计算原理，但是却像神经网络/深度学习之父Geoffrey Hinton和OpenAI前首席科学家Ilya Sutskever一样，其实不知道GPT是怎么「想」的。

Patches所携带的像素、位置、时空信息，以及与周围Patches的变化、运动、关系，在Transform的注意力机制和Difussion的正反向噪声过程，经过大规模视频数据训练，具有了解构和重构一切二维视觉的能力，面向用户表现为涌现式的生成，似乎充满创造力且符合物理规律，但背后其实是Sora「理解」了Patches/像素的变化、运动、位置在时空意义上的关系的数学、算法表征，这些变化和表征又拟合了物理世界的某些合理性。（Patches并非像素）

「理解」即算法，「思考」即模型。

好拗口，好抽象，好累人，但可能这就是事实。

比如，Sora的工程师可能投喂了数千万甚至数亿条视频让大模型来学习，但是可能没有写过哪怕一行与物理性状规则有关的代码。

再比如，Sora可能的确学习了一些3D引擎生成的素材，并且像当初通过DOTA2游戏对战来改进模型一样，引入3D引擎来校正模型生成视频在视觉意义上的物理运动表现，但是百分百可以肯定Sora目前并没有内置3D引擎。

Sora让用户以为它理解了物理世界、物理规律，就像用户头戴苹果Vision Pro的时候以为看到了物理世界，但其实只是在屏幕上看到了携带不断变化的RGB色彩信息的单目3648x3144个像素的各种变化。

甚至图像其实并不是连续的，而是以每秒90-96次的帧率不断刷新，拟合人眼视觉原理，让用户产生视频是连续的错觉。一旦快速甩头，画面就会产生运动模糊。重度游戏玩家甚至能体会到画面撕裂。

视频符合物理规律，不等于视频的生成基于物理规律，更不等于生成视频的大模型本身是数据驱动的物理引擎。所谓物理，可以只是视频画面整体与局部、前后帧统一的像素级的变化规律、表征关系。

2. 即使如此，Sora还是打开AI新视界大门的那个史诗级的里程碑，大模型认知重启

在对Sora原理的各种猜测里，华人AI学者谢赛宁的分析最为贴近。但是局限于技术原理的框架性拆解以及对灵活、可扩展性的强调，反倒没有道出Sora的突变实质——大模型认知重启。
此外，直觉谢赛宁认为Sora目前只有30亿参数的估计也过于保守。
Sora被认为采用了以Transformer为主干的混合扩散模型DIT，其中DIT=VAE编码器+VIT+DDPM+VAE解码器。
此外，Sora还可能使用与Google的Patch n‘Pack（NaVit）类似的技术，以此适应不同分辨率、持续时间和⻓宽比。
尽管在视频标注、将提示词转化为详细说明等方面，Sora充满详实且强烈的文本色彩，但Sora实质上是完全基于视觉、面向视觉、以图像理解世界的大模型。
这一点和过去GPT「文本数据元」（不是神经元）意义上的Token有很大不同，Patches是碎片、补片、基本单元意义上的「视觉信息元」（也不是神经元），Sora里的文本只是人与机器之间、机器与视频之间的「翻译者」、「说明书」。
图像、视频的信息量其实远大于文本，呈现在视觉里的现实世界更是如此。海量视频样本，已经让Sora建立了视觉世界的宏观/微观时空变化的基本动态关系「理解」。
如果将Sora连接到全球各地的机器人、智能汽车、MR头显、智能手机等设备，借助数智之眼，大模型将能够：
自己「亲眼」看到、学习和了解这个世界，而不是仅仅依赖人类投喂给系统的有限文本数据，海量知识信息的「新视界」之门由此打开。
智能设备后接Sora+GPT，实时感知现实，是对具身智能的有力加持，机器人等智能设备有希望获得类似人类感知现实的视觉和判断能力，看到即学习，判断即意味。尽管一开始与人类感知能力还是有较大差距，但也远非传统计算机视觉可比。
加之Sora式的大模型的Input和output本来就可以充分文本化，所以丝毫不用担心这个机器认知的视觉世界和人类的自然语言交互/体感交互会有什么问题。这是一种机器知道视觉「意义」的理解过程。
Sora出现的最大意义，并非可以生成60秒、多个分镜头、主体统一的视频，而是意味着大模型由此可以「睁开眼睛」看世界，这是不亚于人类认知重启的AI的第一次认知重启，并且这还不是全部。
3. 认知重启通向世界模拟器，这意味着「原力觉醒」：大模型里的母模型，未来根科技

Sora还不是世界模拟器，但是表现出了这样的潜力。它没有产生终极答案，但是告诉了业者，隐约可行的方向在哪里。
尽管Sora还远不足以成为通用世界模拟器，但是Sora证明Token（1.0）、Patch（2.0）之后，物理世界的X（3.0）表征是可行的。从文本语义、视觉到物理，是大模型原理的三次飞跃，也是走向真正的通用（其实首先基于多领域专业模拟器）世界模拟器的进阶路径。
Sora还不是物理引擎，但是未来可以泛化为物理引擎。
Patch还只是 ((x,y,z), t )、关系、色彩、内容信息意义上的视觉信息元，并不是神经元，但是未来可以进化为数字神经元。Transformer大模型无论如何都不可能具备人脑一般的量子能力，但是高维全局注意力机制局部具备拟合量子态的潜力。
因为AI对智能进行表征的底层逻辑是数学的，相对人脑的直觉、模糊、随机、潜意识等特征，大模型的机械与恍惚同在。但是一如判断准确率从0、30%、50%、80%、90%以上一路走来，原理不断升维，时空不断转换，面向AGI的进化表现为不断接近高可用性、接近乃至超越人类智能的渐进过程。
但AGI不是终点，也不是圣杯，世界模拟器才是。
Sora有助于实现AGI，但Sora开启的漫漫征途的主要指向并不是AGI，而是世界模拟器。AGI的定义有多种，经典意义上的AGI是类GPT在数据、算力、算法进化到一定程度之后，在知识、内容、程序等工作与创作方面，表现出总体达到局部超越人类智能的能力。
AGI依然是工具，能够支持具身智能，但不是具身智能。AGI并不真正具备内生、自主能力，更多时候只是为人所用的工具。
说到这一点，一定有必要厘清智能发展的不同形态和不同阶段，由此才能看清GPT4、Sora、AGI、世界模拟器所处的生态方位和时空节点。
当我们在说智能的时候，其实同时有三种智能。Smart意义上的功能智能，昔日AI意义上的计算感知智能，也就是弱（的）智能（AI1.0），2020年以来（尤其2023年被视为正式开端）认知智能意义上的强智能（AI2.0）。
目前自动驾驶、机器人等智能水准严格意义上讲处于AI1.0也就是弱智能范畴。强智能（AI2.0）对智能汽车、机器人等智能设备的二次赋能，是正在到来的趋势。
这也是尽管国内人工智能发展如火如荼，但实质存在代差的原因。一些受不了此强彼弱的人，大呼「我们也不差」，认为GPT这一波是在制造威胁论。其实无须嘴硬，凡事都要先争个面子。只需实事求是，看清格局，抓住关键，迎头赶上就好。
如何看待Sora/GPT的背后，还有另一个实质：有没有看到战略高地、科技龙头、智能圣杯、变革引擎、暴风眼在哪里。强AI就是战略高地，AI for Science就是科技龙头，AGI就是眼前的智能圣杯，通用与各领域专业模型就是变革引擎，世界模拟器就是未来的暴风眼。
前面说的三种智能都还只是形态水准，并不是对智能发展的阶段区分。我将智能发展相对划分为五个阶段：计算功能智能、计算感知智能、认知智能、内生智能（EI）、自主智能（II）。
请注意，有一天AI人工智能这个提法会边缘化，因为智能不再是「人工」的。人工的AGI自然不是终点，智能将比我们对AGI的预期走得更远。这一点我在《走向第二曲线》有详细分析，此处不再赘述。
智能变革的核心是超级智能，超级智能的具身是AGI，AGI是AI2.0、认知智能的高级形态（但主要还是人工投喂人工增强的智能），AGI是现阶段所言AI的高级形态，但不是EI内生智能和II自主智能。AGI不会像某些人说的一两年內就会实现，但估计也就在GPT6前后。之后的阶段，属于内生智能（EI）、自主智能（II），属于世界模拟器。世界模拟器是EI基石，II基准。
超级智能是世界之脑，超级智能的母体是世界模拟器。世界模拟器是大模型里的母模型，未来科技里的根科技。
看看大模型在工业仿真、环境气候、材料预测、蛋白质分析、分子药物、基因研究等领域已经遍地开花的强力开局，就会知道，Sora与它们正在殊途同归：世界模拟器未来主要不是用来玩的，并不是元宇宙概念的炒资，而是科技生产力爆发点，是智能未来真正的炸裂点。
世界模拟器，科技里的母科技，AI for Science各领域的核心抓手，每个领域的交感、理解、复现、预测，未来世界的「CAE」仿真只是其基础特性之一。世界模拟器，是最接近智能母体的存在。
世界模拟器意味着「原力觉醒」，创新之源，科技驱动，战略高地，不容有失。
4. 走向世界模拟器的漫漫征途，将经历哪些阶段？

Sora放出的所有视频里，最具深度探讨价值的其实是那个水杯倾倒的片段。
Sora是如何拟合现实的，究竟是不是物理引擎，如何才能成为符合物理特性的引擎，未来又如何才能够成为世界模拟器。从中隐约可见答案。
CV发展初期，计算机能做到的只是杯子边缘轮廓特征提取和复现（比如Neocognitron），再后来可以识别到这是一个水杯（比如早期ImageNet），再后来可以「理解」水和杯子的关系（CNN&RNN），现在能够开始学习和复现水杯倾倒过程（Transformer/Sora），接下来会怎么样发展，也许只有大模型技术专家知道，也许都还在探索，并无定论。
我只是站在用户角度进行黑箱式的透析，超级智能接下来能不能够做到这几步？
水杯倾倒的流动特症能不能完全符合物理特性，不出现目前的明显瑕疵？对应流体力学等。
水杯倾倒后能不能做到视频中的冰逐渐在水中融化（所以更感兴趣那个汉堡咬痕）？对应热力学等。
水杯倾倒后导致桌面桌布等湿化以后能不能看到水渍、水汽的光影与色彩变化（所以更感兴趣那个画布笔触）？对应光学物理等。
水杯倾倒的过程能不能生成与实景契合的声音，而不只是简单声效？对应声学物理等。
水杯倾倒的角度与力量能不能做到随机操控，产生碎裂、泼溅、蒸发等不同现象？综合以上及凝聚态物理。
水杯倾倒周围如果有电源、危化物品，能否进行场景预测、情景预现？对应电磁物理、物理化学等。
以上都只是物理角度的简单引申，世界模拟器所需要对应到的科学领域，以及现实世界的复杂现象，甚至是目前数十个主要学科尚未能穷尽的。所以无论从过程还是领域而言，都是征途漫漫。但这才是星辰大海。
相应的几个循序渐进的问题是：
Sora可以对3D图像而不是3D引擎生成的2D视频进行学习训练吗？
Sora可以从微宏观统一的尺度，对三维物体的内在性状进行学习训练吗？
Sora可以在模型原理、神经网络、节点层级对物理世界进行X（3.0）意义上的3D时空运动表征，并在世界虚拟器交感、理解、复现、预测四要素具备的基础上使X进化为神经元吗？
面向世界虚拟器的进化，远不止这些问题，更不只是这些维度……
总的来说，Sora部分拟合了「视觉规律」，但是还没有真的理解「物理世界」。目前的Sora本质上还是在视觉内容世界里，更多与视频、游戏、娱乐等相关。但并不妨碍Sora式的大模型下一步，进入机器人、智能汽车等主要智能设备，以及成为世界模拟器。
AI For Science是世界模拟器的关键落地场景，而AI For Science意义上的X（3.0）是物理世界与视觉世界的分叉点，就像Patch（2.0）是文本世界Token（1.0）与视觉世界的分叉点。
数据、学习、生成、预期是AGI四要素，信息内容感更强。交感、理解、复现、预测，是世界模拟器四要素，母体感知现实具身感更强。世界模拟器的Input和output，实质主要由机器智能系统自主完成，是具有自我强化和自主行为能力的智能。世界模拟器征途漫漫，必将通向EI、II。
5. 接下来的态势会怎么样？12种情况预估

态势1：Sora模型并非不可复制。
OpenAI如果短期内不正式推出Sora（快不了）给全球用户，其它竞争对手也会陆续发布自己的类似产品，Patches做法早已有之，并非独门暗器。
OpenAI和Google、Meta之间只有时间差。但是中小团队的数据差、资源差、算力差造成的竞争弱势，只有原理升维才可能弥补。Pika、Runway如果不能在原理层面完成超越，哪怕勉强能够追上Sora未来也是堪忧。另外，原理相似不等于效果相同，差之毫厘谬之千里。
态势2：拚原理>拚算力，模型原理升维才是能力跃迁关键，但算力必不可少且需求继续陡增。
Sora对prompt单次响应与output过程的算力消耗必然远超GPT4.0，但这并不是重点。Sora再一次证明，拚原理的重要性远大于拚算力，算力算什么（而不是算力）才见高下。
原理引起的格局翻覆往往就在一瞬间，今后也是，翻覆还将多次。但算力总体需求依然呈现为爆发式增长，因为要算的不再只是文本/Token，视觉/Patches会令算力需求陡增。
未来物理引擎、世界模拟器对各类传感的接入需要和计算需求，更会令算力吃紧。即使眼前线性地看，高质量海量数据总是优于小体量数据，参数量大总是优于参数量小，模型的深层、多阶段、反复思考总是优于单阶段，高分辨率高精度总是显著优于低精度，所以算力需求依然呈现为指数级增长。但总体而言，算力只是必要条件。
态势3：以Transformer为主干的大模型依然是主要演进方向，且具有巨大潜力。
Self-Attention机制在电子计算的层级模拟了量子态（只是神似），消除了信息元之间的距离限制、消解了CNN的场域阻隔，在量子计算可用之前，是以数学、电子计算为基础的最具脑特征的智能。
态势4：轻与重，大和小，单一与混合，始终是两种并行逻辑。
在计算机视觉模型走向大模型、进而走向世界模拟器的漫漫征途中，视频看上去「合理」的Sora走的是一条更轻的捷径，操控感、立体感、前后扩展自然不够理想。
3D建模、粒子渲染、光线追踪从算力、设备和人工投资来说，又笨又重，但更贴近本质，且操控感更强。就像自动驾驶的两条计算机视觉路线，一个靠CMOS图像数据来算，一个靠雷达来对物理空间进行点云建模。
目前只能说电影工业多了一个选择，倒还没有摧枯拉朽那么夸张。微电影、短视频倒是因此生发出无限可能。
态势5：功能瑕疵问题反倒不是问题，并且越往世界模拟器方向走，视频生成的这些小问题越无关大局。
时间线前后扩展、主体融合过渡、场景置换、连续性、3D运镜、多镜头、汉堡咬痕，这些只是目前的能力，Sora的可用性未来会更加超出预期。
目前存在的左右腿瞬移、多指多趾、人物消失、运动变形、人穿过栅栏等bug多多，但是瑕不掩瑜，而且这些问题随着训练规模增加、模型不断微调优化，必然迎刃而解。
态势6：Sora与Vision Pro的确是一对想象力组合，但是以为戴上头盔就可以念念有词的，一多半可能会失望。
此外，VR在向MR进，AR在向MR退，VR以后只是MR的一个功能，MR是产业科技目前能够到的交叉点，最难突破的AR未来才是主要形态。
态势7：OpenAI本身的4个可能与6个不可能。
可能方面：成为主流AI开发者平台，成为最大Store，形成数十亿用户生态，部分具身智能能力。
不可能方面：7万亿美元造芯，模型原理持续领先，开源开放，纵横整合产业链，成为具身智能/内生智能/自主智能，坚持初创理念不动摇不成为......
尤其7万亿美元AI造芯那条忽悠了不少人的吊诡信息，是WSJ援引所谓消息人士，并不是奥特曼本人，已投Rain股权中的沙特基金在被美帝劝退，还和中东主权基金合计在美投资数万亿美元的大规模芯片制造？绿钱不参与的话，找够相当于美元「风投+IPO」十几年总额的资金做AI芯片，要么是概念吹疯了，要么是常识缺位，要么是算数不会了。更重要的是，制造并不是AI计算突破重点。
态势8：全生态转变已开始，AI是主驱动但不是化学反应全部。
6个要素：感知（交互）、计算（数据）、智能（AI）、连接（网络）、协约（关系）、能量（能源）等。
态势9：变化非线形。
深层玩家不仅着眼算力提升，还在酝酿计算架构之变，变化不会是线性的，有可能业者讨论的未来其实是现在，而不是升维后的未来。下一步模型原理、计算架构包括芯片，都将不断有重大变化。
态势10：AI原力在底层，应用只是需求牵引力。
国内团队适合从应用着手说法没错，但过早定格一觉醒来发现楼塌了不是没有可能，还是需要有人聚焦底层之变，包括硬件底层，硬仗有人打，至少紧跟。
态势11：一定是云端边-大中小-PPP混合AI，如此战场方能展开；但不能只着眼AI，感数算智、软硬协同、形态创新等维度交织才是完整视角，也是价值展开的关键。
如果只是窄化为算力算法意义上的AI，轻量化为场景需求意义上的应用，无异于互联网思维，只可能第一天就卷，只可能是store里的一个GTPs、APPs，就像互联网时代曾经活成了「很厉害」的APP的样子；这是一场原力致胜的立体战役，最需要褪去的就是互联网思维；凡事偷轻，难堪重任；处处求简，难当多面；全生态全体系变革，仅应用不足以催化，仅算力算法数据模型意义上的AI不足以驱动。
态势12：压力陡增。
回到老难题，中美AI之争，李约瑟之问和钱学森之问。说实话GPT3.5、GPT4.0发布之际，压力不那么大，总觉得有得一追，毕竟都还在文本、代码、图片维度。但是Sora一出，压力陡增。升维比想象得快。竞争和发展不是二维、线性的。真正的物理世界模拟器，已经隐约能嗅到味道，且原理隐约可见。这才是AI未来竞争、大模型决胜的炸裂点。
朋友有句话说得好，当年Alpha Go/zero碾压人类围棋之后，事了拂衣去，一年后阿尔法Fold横空处世，重塑了人类对蛋白质结构认知与预测，这才叫伟大工程。Sora也是一样，如果只以为它是60秒视频生成神器，被网络喷子喷成「洋人的奇技淫巧」，无用之用，可以说与业外对早期AlphaGo的「下棋玩具」理解有几分神似。
但如果从大模型睁开眼睛看世界，AI认知重启，以及潜在的世界模拟器发展方向看，这显然是正在觉醒的原力。企业如果忽视趋势，在这一史诗级的漫漫征程中落伍，会被降维打击得连亲妈都认不出来。
AI认知重启，超级智能点亮亿万机器之心，世界虚拟器成为母模型根科技，不是科幻，这是一个时代的序幕。
那么，AI认知已然重启，人类的认知重启了吗？
作者介绍
胡延平，DCCI未来智库创始人，FutureLabs未来实验室首席专家，信息社会50人论坛成员。《全球创新前沿科技地图》及相关研究项目主导，科技畅销书《黑科技》（2017）共同作者与出品人。
历任《互联网周刊》总编、中国互联网协会交流发展中心主任等媒体与NGO职务，持续专注于前沿科技创新探索，角度专注于「从技术看产品，从产品看产业，从产业看生态」。
1997以来出版多部科技专著。《奔腾时代（硅谷）》（1997）作者、《数字蓝皮书》（2000）、《跨越数字鸿沟》、《第二次现代化》、《第四种力量》（2002）著者，《Google将带来什么》（2009）译者之一。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

独家｜世界模拟器才是AGI终局，12态势预测！首席专家万字长文专业解读Sora里程碑

新智元报道

【新智元导读】生成60秒逼真视频，只是未来的一个小功能，母模型根科技原力觉醒。来自未来实验室的首席专家胡延平就爆火Sora模型做出了深度的个人解读。

相比「现实不存在了」这种既乖张又夸张的表达，专业人士的意见貌似客观，但实际偏差也不小。

评论列表

评论