
新智元报道
新智元报道
【新智元导读】生成60秒逼真视频,只是未来的一个小功能,母模型根科技原力觉醒。来自未来实验室的首席专家胡延平就爆火Sora模型做出了深度的个人解读。
1. Sora只是二维视觉的压缩扩散和时空表达,不是物理引擎,也不是世界模型
相比「现实不存在了」这种既乖张又夸张的表达,专业人士的意见貌似客观,但实际偏差也不小。
2. 即使如此,Sora还是打开AI新视界大门的那个史诗级的里程碑,大模型认知重启
在对Sora原理的各种猜测里,华人AI学者谢赛宁的分析最为贴近。但是局限于技术原理的框架性拆解以及对灵活、可扩展性的强调,反倒没有道出Sora的突变实质——大模型认知重启。 此外,直觉谢赛宁认为Sora目前只有30亿参数的估计也过于保守。
自己「亲眼」看到、学习和了解这个世界,而不是仅仅依赖人类投喂给系统的有限文本数据,海量知识信息的「新视界」之门由此打开。
智能设备后接Sora+GPT,实时感知现实,是对具身智能的有力加持,机器人等智能设备有希望获得类似人类感知现实的视觉和判断能力,看到即学习,判断即意味。尽管一开始与人类感知能力还是有较大差距,但也远非传统计算机视觉可比。
加之Sora式的大模型的Input和output本来就可以充分文本化,所以丝毫不用担心这个机器认知的视觉世界和人类的自然语言交互/体感交互会有什么问题。这是一种机器知道视觉「意义」的理解过程。
3. 认知重启通向世界模拟器,这意味着「原力觉醒」:大模型里的母模型,未来根科技
Sora还不是世界模拟器,但是表现出了这样的潜力。它没有产生终极答案,但是告诉了业者,隐约可行的方向在哪里。 尽管Sora还远不足以成为通用世界模拟器,但是Sora证明Token(1.0)、Patch(2.0)之后,物理世界的X(3.0)表征是可行的。从文本语义、视觉到物理,是大模型原理的三次飞跃,也是走向真正的通用(其实首先基于多领域专业模拟器)世界模拟器的进阶路径。
智能变革的核心是超级智能,超级智能的具身是AGI,AGI是AI2.0、认知智能的高级形态(但主要还是人工投喂人工增强的智能),AGI是现阶段所言AI的高级形态,但不是EI内生智能和II自主智能。AGI不会像某些人说的一两年內就会实现,但估计也就在GPT6前后。之后的阶段,属于内生智能(EI)、自主智能(II),属于世界模拟器。世界模拟器是EI基石,II基准。
4. 走向世界模拟器的漫漫征途,将经历哪些阶段?
Sora放出的所有视频里,最具深度探讨价值的其实是那个水杯倾倒的片段。
水杯倾倒的流动特症能不能完全符合物理特性,不出现目前的明显瑕疵?对应流体力学等。
水杯倾倒后能不能做到视频中的冰逐渐在水中融化(所以更感兴趣那个汉堡咬痕)?对应热力学等。
水杯倾倒后导致桌面桌布等湿化以后能不能看到水渍、水汽的光影与色彩变化(所以更感兴趣那个画布笔触)?对应光学物理等。
水杯倾倒的过程能不能生成与实景契合的声音,而不只是简单声效?对应声学物理等。
水杯倾倒的角度与力量能不能做到随机操控,产生碎裂、泼溅、蒸发等不同现象?综合以上及凝聚态物理。
水杯倾倒周围如果有电源、危化物品,能否进行场景预测、情景预现?对应电磁物理、物理化学等。
Sora可以对3D图像而不是3D引擎生成的2D视频进行学习训练吗?
Sora可以从微宏观统一的尺度,对三维物体的内在性状进行学习训练吗?
Sora可以在模型原理、神经网络、节点层级对物理世界进行X(3.0)意义上的3D时空运动表征,并在世界虚拟器交感、理解、复现、预测四要素具备的基础上使X进化为神经元吗?
5. 接下来的态势会怎么样?12种情况预估
态势1:Sora模型并非不可复制。 OpenAI如果短期内不正式推出Sora(快不了)给全球用户,其它竞争对手也会陆续发布自己的类似产品,Patches做法早已有之,并非独门暗器。 OpenAI和Google、Meta之间只有时间差。但是中小团队的数据差、资源差、算力差造成的竞争弱势,只有原理升维才可能弥补。Pika、Runway如果不能在原理层面完成超越,哪怕勉强能够追上Sora未来也是堪忧。另外,原理相似不等于效果相同,差之毫厘谬之千里。 态势2:拚原理>拚算力,模型原理升维才是能力跃迁关键,但算力必不可少且需求继续陡增。 Sora对prompt单次响应与output过程的算力消耗必然远超GPT4.0,但这并不是重点。Sora再一次证明,拚原理的重要性远大于拚算力,算力算什么(而不是算力)才见高下。 原理引起的格局翻覆往往就在一瞬间,今后也是,翻覆还将多次。但算力总体需求依然呈现为爆发式增长,因为要算的不再只是文本/Token,视觉/Patches会令算力需求陡增。 未来物理引擎、世界模拟器对各类传感的接入需要和计算需求,更会令算力吃紧。即使眼前线性地看,高质量海量数据总是优于小体量数据,参数量大总是优于参数量小,模型的深层、多阶段、反复思考总是优于单阶段,高分辨率高精度总是显著优于低精度,所以算力需求依然呈现为指数级增长。但总体而言,算力只是必要条件。 态势3:以Transformer为主干的大模型依然是主要演进方向,且具有巨大潜力。 Self-Attention机制在电子计算的层级模拟了量子态(只是神似),消除了信息元之间的距离限制、消解了CNN的场域阻隔,在量子计算可用之前,是以数学、电子计算为基础的最具脑特征的智能。 态势4:轻与重,大和小,单一与混合,始终是两种并行逻辑。 在计算机视觉模型走向大模型、进而走向世界模拟器的漫漫征途中,视频看上去「合理」的Sora走的是一条更轻的捷径,操控感、立体感、前后扩展自然不够理想。 3D建模、粒子渲染、光线追踪从算力、设备和人工投资来说,又笨又重,但更贴近本质,且操控感更强。就像自动驾驶的两条计算机视觉路线,一个靠CMOS图像数据来算,一个靠雷达来对物理空间进行点云建模。 目前只能说电影工业多了一个选择,倒还没有摧枯拉朽那么夸张。微电影、短视频倒是因此生发出无限可能。 态势5:功能瑕疵问题反倒不是问题,并且越往世界模拟器方向走,视频生成的这些小问题越无关大局。 时间线前后扩展、主体融合过渡、场景置换、连续性、3D运镜、多镜头、汉堡咬痕,这些只是目前的能力,Sora的可用性未来会更加超出预期。 目前存在的左右腿瞬移、多指多趾、人物消失、运动变形、人穿过栅栏等bug多多,但是瑕不掩瑜,而且这些问题随着训练规模增加、模型不断微调优化,必然迎刃而解。 态势6:Sora与Vision Pro的确是一对想象力组合,但是以为戴上头盔就可以念念有词的,一多半可能会失望。 此外,VR在向MR进,AR在向MR退,VR以后只是MR的一个功能,MR是产业科技目前能够到的交叉点,最难突破的AR未来才是主要形态。 态势7:OpenAI本身的4个可能与6个不可能。 可能方面:成为主流AI开发者平台,成为最大Store,形成数十亿用户生态,部分具身智能能力。 不可能方面:7万亿美元造芯,模型原理持续领先,开源开放,纵横整合产业链,成为具身智能/内生智能/自主智能,坚持初创理念不动摇不成为...... 尤其7万亿美元AI造芯那条忽悠了不少人的吊诡信息,是WSJ援引所谓消息人士,并不是奥特曼本人,已投Rain股权中的沙特基金在被美帝劝退,还和中东主权基金合计在美投资数万亿美元的大规模芯片制造?绿钱不参与的话,找够相当于美元「风投+IPO」十几年总额的资金做AI芯片,要么是概念吹疯了,要么是常识缺位,要么是算数不会了。更重要的是,制造并不是AI计算突破重点。 态势8:全生态转变已开始,AI是主驱动但不是化学反应全部。 6个要素:感知(交互)、计算(数据)、智能(AI)、连接(网络)、协约(关系)、能量(能源)等。 态势9:变化非线形。 深层玩家不仅着眼算力提升,还在酝酿计算架构之变,变化不会是线性的,有可能业者讨论的未来其实是现在,而不是升维后的未来。下一步模型原理、计算架构包括芯片,都将不断有重大变化。 态势10:AI原力在底层,应用只是需求牵引力。 国内团队适合从应用着手说法没错,但过早定格一觉醒来发现楼塌了不是没有可能,还是需要有人聚焦底层之变,包括硬件底层,硬仗有人打,至少紧跟。 态势11:一定是云端边-大中小-PPP混合AI,如此战场方能展开;但不能只着眼AI,感数算智、软硬协同、形态创新等维度交织才是完整视角,也是价值展开的关键。 如果只是窄化为算力算法意义上的AI,轻量化为场景需求意义上的应用,无异于互联网思维,只可能第一天就卷,只可能是store里的一个GTPs、APPs,就像互联网时代曾经活成了「很厉害」的APP的样子;这是一场原力致胜的立体战役,最需要褪去的就是互联网思维;凡事偷轻,难堪重任;处处求简,难当多面;全生态全体系变革,仅应用不足以催化,仅算力算法数据模型意义上的AI不足以驱动。 态势12:压力陡增。 回到老难题,中美AI之争,李约瑟之问和钱学森之问。说实话GPT3.5、GPT4.0发布之际,压力不那么大,总觉得有得一追,毕竟都还在文本、代码、图片维度。但是Sora一出,压力陡增。升维比想象得快。竞争和发展不是二维、线性的。真正的物理世界模拟器,已经隐约能嗅到味道,且原理隐约可见。这才是AI未来竞争、大模型决胜的炸裂点。 朋友有句话说得好,当年Alpha Go/zero碾压人类围棋之后,事了拂衣去,一年后阿尔法Fold横空处世,重塑了人类对蛋白质结构认知与预测,这才叫伟大工程。Sora也是一样,如果只以为它是60秒视频生成神器,被网络喷子喷成「洋人的奇技淫巧」,无用之用,可以说与业外对早期AlphaGo的「下棋玩具」理解有几分神似。 但如果从大模型睁开眼睛看世界,AI认知重启,以及潜在的世界模拟器发展方向看,这显然是正在觉醒的原力。企业如果忽视趋势,在这一史诗级的漫漫征程中落伍,会被降维打击得连亲妈都认不出来。 AI认知重启,超级智能点亮亿万机器之心,世界虚拟器成为母模型根科技,不是科幻,这是一个时代的序幕。 那么,AI认知已然重启,人类的认知重启了吗? 作者介绍

胡延平,DCCI未来智库创始人,FutureLabs未来实验室首席专家,信息社会50人论坛成员。《全球创新前沿科技地图》及相关研究项目主导,科技畅销书《黑科技》(2017)共同作者与出品人。 历任《互联网周刊》总编、中国互联网协会交流发展中心主任等媒体与NGO职务,持续专注于前沿科技创新探索,角度专注于「从技术看产品,从产品看产业,从产业看生态」。 1997以来出版多部科技专著。《奔腾时代(硅谷)》(1997)作者、《数字蓝皮书》(2000)、《跨越数字鸿沟》、《第二次现代化》、《第四种力量》(2002)著者,《Google将带来什么》(2009)译者之一。 

作者介绍



内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢