
新智元报道
新智元报道
【新智元导读】威尔·史密斯的这段视频,把全网都骗了!其实Sora的技术路线,早已被人预言了。李飞飞去年就用Transformer做出了逼真的视频。但只有OpenAI大力出奇迹,跑在了所有人前面。



Runway生成的,是这样的——




Sora的出现,其实在今年1月就已被人预言
我认为,Transformer框架和LLM路线,将是AI视频的一个突破口和新范式,它将使AI视频更加连贯、一致,并且时长更长。目前的Diffusion+Unet路线(如Runway、Pika等),只是暂时的解决方案。

Runway和Pika「点歪」的科技树,被OpenAI掰正了
在此之前,Runway、Pika等AI视频工具吸引了不少聚光灯。 
而OpenAI的Sora,不仅效果更加真实,就是把Transformer对前后文的理解和强大的一致性,发挥得淋漓尽致。 这个全新的科技树,可真是够震撼的。 不过我们在开头也可以看到,OpenAI并不是第一个想到这个的人。Transformer框架+LLM路线这种新范式,其实早已有人想到了。 就如同AI大V「阑夕」所言,OpenAI用最简单的话,把最复杂的技术讲清楚了—— 「图片只是单帧的视频。」 科技行业这种从容的公共表达,真是前所未见,令人醍醐灌顶。 
「阑夕」指出,「图片只是单帧的视频」的妙处就在于,图片的创建不会脱离时间轴而存在,Sora实际上是提前给视频写了脚本的。 甚至无论用户怎样Prompt,Sora AI都有自己的构图思维。 而这,就是困住Runway、Pika等公司最大的问题。 它们的思路,基本都是基于一张图片来让AI去想象,完成延伸和填补,从而叠加成视频。比拼的是谁家的AI更能理解用户想要的内容。 因此,这些AI视频极易发生变形,如何保持一致性成了登天般的难题。 Diffusion Model这一局,是彻底输给Transformer了。


ChatGPT故事再次重演,Sora其实站在谷歌的肩膀上
William Peebles和谢赛宁提出的框架


CVPR「有眼不识泰山」,拒掉Sora基础论文


时空Patch是谷歌的创新



此外,从Sora参考文献中可以看出,多个机构和名校都对Sora做出了贡献。 
比如,用Transformer做扩散模型的去噪骨干这个方法,早已被斯坦福学者李飞飞证明。 在去年12月,李飞飞携斯坦福联袂谷歌,用Transformer生成了逼真视频。 生成的效果可谓媲美Gen-2比肩Pika,当时许多人激动地感慨——2023年已成AI视频元年,谁成想2024一开年,OpenAI新的震撼就来了! 
李飞飞团队做的,是一个在共享潜空间中训练图像和视频生成的,基于Transformer的扩散模型。 史上首次,AI学者证明了:Transformer架构可以将图像和视频编码到一个共享的潜空间中!


大力出奇迹的时候到了,不拿出一百亿美金的大厂就会out
当然,还有一点不得不承认的是:OpenAI能做出Sora,也是因为背后大量的资金支持。 没有资金,就没有数据和算力。即使点对了科技树也无法验证。 可以说,Sora是另一个建立在Transformer上的暴力美学。 现在,芯片+AI是人类有史以来最大的科技浪潮。 不拿出100亿美金的大厂,就要掉队了。 
国内这边,格局又会怎样变换?让我们拭目以待。 参考资料: https://weibo.com/1727858283/O1isjz6aw https://openai.com/research/video-generation-models-as-world-simulators https://weibo.com/3235040884/O19wnxB9Y





内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢