中国如何复刻Sora，华人团队长文解构！996 OpenAI研究员：Sora是视频GPT-2时刻

新智元报道

编辑：编辑部

【新智元导读】自曝996作息的OpenAI研究员Jason Wei表示，Sora代表着视频生成的GPT-2时刻。竞争的关键，就是算力和数据了。国内有可能成功「复刻」Sora吗？华人团队的这份37页技术报告，或许能给我们一些启发。

今天，这张图在AI社区热转。

它列举了一众文生视频模型的诞生时间、架构和作者机构。

毫不意外，谷歌依然是视频模型开山之作的作者。不过如今AI视频的聚光灯，全被Sora抢去了。

同时，自曝996作息时间表的OpenAI研究员Jason Wei表示——

「Sora是一个里程碑，代表着视频生成的GPT-2时刻。」

对于文字生成领域，GPT-2无疑是一个分水岭。2018年GPT-2的推出，标志着能够生成连贯、语法正确的文本段落的新时代。

当然，GPT-2也难以完成一篇完整无误的文章，会出现逻辑不一致或捏造事实的情况。但是，它为后续的模型发展奠定了基础。

在不到五年内，GPT-4已经能够执行串联思维这种复杂任务，或者写出一篇长文章，过程中并不会捏造事实。

而今天，Sora已经也意味着这样的时刻。

它能创作出既有艺术感又逼真的短视频。虽然还不能创作出长达40分钟的电视剧，但角色的一致性和故事性已经非常引人入胜！

Jason Wei相信，在Sora以及未来的视频生成模型中，保持长期一致性、近乎完美的逼真度、创作有深度的故事情节这些能力，都会逐渐成型。

Sora会颠覆好莱坞吗？它离电影大片还有多远？

好莱坞知名导演Tyler Perry在看到Sora生成的视频后，大为震惊，决定撤掉自己亚特兰大工作室耗资8亿美元的扩建计划。
因为以后拍摄的大片中，可能不需要找取景地，或者搭建实景了。
所以，Sora会颠覆电影产业吗？Jason Wei表示，它就像现在的GPT-4一样，可以作为一种辅助工具提升作品质量，所以距离专业的电影制作还有一段距离。
而现在，视频和文本的最大区别就是，前者的信息密度较低，所以在视频推理等技能的学习上，就会需要大量的算力和数据。
因此，高质量视频数据的竞争会非常激烈！就像现在各家都在争抢高质量的文本数据集。
另外，将视频与其他信息模式结合起来，作为学习过程的辅助信息将极为关键。
并且在未来，拥有视频处理经验的AI研究人员会变得非常抢手！不过，他们也需要像传统的自然语言处理研究者那样，适应新的技术发展趋势。

没有中间物理模型，但已具备革命性

OpenAI的TikTok账号，还在不断放出Sora的新作品。

Sora离好莱坞大片距离还有多远？让我们来看看这个电影中经常出现的场景——瓢泼大雨中，一辆车在夜色中飞速穿过城市街道。

A super car driving through city streets at night with heavy rain everywhere, shot from behind the car as it drives

再比如，Sora生成的工地上，叉车、挖掘机、脚手架和建筑工人们也都十分逼真。

并且，它还拍出了微型摄影的效果，让一切都看起来像一个缩影。

当然，仔细看，画面还会存在一些问题。

比如一个人会突然分裂成好几个人。

或者，一个人忽然变成了另一个。

AI公司创始人swyx总结说，根本原因还是因为Sora没有中间物理模型，这完全是LeCun所提世界模型的对立面。

不过，它依然为电影制作流程创造了质的飞跃，大大降低了成本。

虽然Runway可以实现类似功能，但Sora将一切都提升到了一个新的水平。

以下是Sora和Pika、Runway Gen-2、AnimateDiff和LeonardoAI的比较。

人人都能拍自己的电影

在不久的将来，或许我们每个人都可以在几分钟内生成自己的电影了。

比如，我们可以用ChatGPT帮忙写出剧本，然后用Sora进行文字转视频。在未来，Sora一定会突破60s的时间限制。

想象一下，在你的脑海里拍出一部从未存在过的电影，是什么感觉

或者，我们可以用Dall-E或者Midjourney生成图像，然后用Sora生成视频。

D-ID可以让角色的嘴部、身体动作和所说的台词保持一致。

此前风靡全网的《哈利波特》巴黎世家时尚大片

ElevenLabs，可以为视频中的角色配音，增强视频的情感冲击力，创造视觉和听觉叙事的无缝融合。

做自己的大片，就是这么简单！

可惜的是，Sora的训练成本大概要千万美元级别。

去年ChatGPT发布后，一下子涌现出千模大战的盛况。而这次Sora距离诞生已有半个月了，各家公司仍然毫无动静。

中国公司该如何复刻Sora？

恰恰在最近，华人团队也发布了非常详细的Sora分析报告，或许能给这个问题一些启发。

华人团队逆向工程分析Sora

最近，来自理海大学的华人团队和微软副总裁高剑峰博士，联合发布了一篇长达37页的分析论文。
通过分析公开的技术报告和对模型的逆向工程研究，全面审视了Sora的开发背景、所依赖的技术、其在各行业的应用前景、目前面临的挑战，以及文本转视频技术的未来趋势。
其中，论文主要针对Sora的开发历程和构建这一「虚拟世界模拟器」的关键技术进行了研究，并深入探讨了Sora在电影制作、教育、营销等领域的应用潜力及其可能带来的影响。
论文地址：https://arxiv.org/abs/2402.17177
项目地址：https://github.com/lichao-sun/SoraReview
如图2所示，Sora能够表现出精准地理解和执行复杂人类指令的能力。
而在制作能够细致展现运动和互动的长视频方面，Sora也取得了长足的进展，突破了以往视频生成技术在视频长度和视觉表现上的限制。这种能力标志着AI创意工具的重大飞跃，使得用户能将文字叙述转化为生动的视觉故事。
研究人员认为，Sora之所以能达到这种高水平，不仅是因为它能处理用户输入的文本，还因为它能理解场景中各个元素复杂的相互关系。
如图3所示，过去十年里，生成式计算机视觉（CV）技术的发展路径十分多样，尤其是在Transformer架构成功应用于自然语言处理（NLP）之后，变化显著。
研究人员通过将Transformer架构与视觉组件相结合，推动了其在视觉任务中的应用，比如开创性的视觉Transformer（ViT）和Swin Transformer。
与此同时，扩散模型在图像与视频生成领域也取得了突破，它们通过U-Net技术将噪声转化为图像，展示了数学上的创新方法。
从2021年开始，AI领域的研究重点，便来到了那些能够理解人类指令的语言和视觉生成模型，即多模态模型。
随着ChatGPT的发布，我们在2023年看到了诸如Stable Diffusion、Midjourney、DALL-E 3等商业文本到图像产品的涌现。
然而，由于视频本身具有的时间复杂性，目前大多数生成工具仅能制作几秒钟的短视频。
在这一背景下，Sora的出现象征着一个重大突破——它是第一个能够根据人类指令生成长达一分钟视频的模型，其意义可与ChatGPT在NLP领域的影响相媲美。
如图4所示，Sora的核心是一个可以灵活地处理不同维度数据的Diffusion Transformer，其主要由三个部分组成：
1. 首先，时空压缩器会把原始视频转映射到潜空间中。
2. 接着，视觉Transformer（ViT）模型会对已经被分词的潜表征进行处理，并输出去除噪声后的潜表征。
3. 最后，一个与CLIP模型类似的系统根据用户的指令（已经通过大语言模型进行了增强）和潜视觉提示，引导扩散模型生成具有特定风格或主题的视频。在经过多次去噪处理之后，会得到生成视频的潜表征，然后通过相应的解码器映射回像素空间。

数据预处理

- 可变的持续时间、分辨率和高宽比

如图5所示，Sora的一大特色是它能够处理、理解并生成各种大小的视频和图片，从宽屏的1920x1080p视频到竖屏的1080x1920p视频，应有尽有。

如图6所示，与那些仅在统一裁剪的正方形视频上训练的模型相比，Sora制作的视频展示了更好的画面布局，确保视频场景中的主体被完整捕捉，避免了因正方形裁剪而造成的画面有时被截断的问题。

Sora对视频和图片特征的精细理解和保留，在生成模型领域是一个重大的进步。

它不仅展现了生成更真实和吸引人的视频的可能性，还突出了训练数据的多样性对生成式AI取得高质量结果的重要性。

- 统一的视觉表征

为了有效处理各种各样的视觉输入，比如不同长度、清晰度和画面比例的图片和视频，一个重要的方法是把这些视觉数据转换为统一的表征。这样做还有利于对生成模型进行大规模的训练。

具体来说，Sora首先将视频压缩到「低维潜空间」，然后再将表征分解成「时空patches」。

- 视频压缩网络

如图7所示，Sora的视频压缩网络（或视觉编码器）的目标是降低输入数据的维度，并输出经过时空压缩的潜表征。

技术报告中的参考文献显示，这种压缩技术是VAE或矢量量化-VAE（VQ-VAE）基础上的。然而，根据报告，如果不进行图像的大小调整和裁剪，VAE很难将不同尺寸的视觉数据映射到一个统一且大小固定的潜空间中。

针对这个问题，研究人员探讨了两种可能的技术实现方案：

1. 空间patches压缩

这一过程需要将视频帧转换成固定大小的patches，与ViT和MAE模型采用的方法相似（如图8所示），然后再将其编码到潜空间中。

通过这种方式，模型可以高效地处理具有不同分辨率和宽高比的视频，因为它能通过分析这些patches来理解整个视频帧的内容。接下来，这些空间Token会按时间顺序排列，形成空间-时间潜表征。

2. 空间-时间patches压缩

这种技术包含了视频数据的空间和时间维度，不仅考虑了视频画面的静态细节，还关注了画面之间的运动和变化，从而全面捕捉视频的动态特性。利用三维卷积是实现这种整合的直接而有效的方法

- 潜空间patches

在压缩网络部分还有一个关键问题：在将patches送入Diffusion Transformer的输入层之前，如何处理潜空间维度的变化（即不同视频类型的潜特征块或patches的数量）。

根据Sora的技术报告和相应的参考文献，patch n' pack（PNP）很可能是一种解决方案。

如图10所示，PNP将来自不同图像的多个patches打包在一个序列中。

在这里，patch化和token嵌入步骤需要在压缩网络中完成，但Sora可能会像Diffusion Transformer那样，进一步将潜在的patch化为Transformer token。

- Diffusion Transformer

建模

- 图像Diffusion Transformer

DiT和U-ViT是最早将视觉Transformers用于潜在扩散模型的工作之一。与ViT一样，DiT也采用多头自注意力层和点卷积前馈网络，交错一些层归一化和缩放层。

此外，DiT还通过自适应层归一化（AdaLN）并增加了一个额外的MLP层进行零初始化，这样初始化每个残差块为恒等函数，从而极大地稳定了训练过程。

U-ViT将所有输入，包括时间、条件和噪声图像patches，都视为token，并提出了浅层和深层Transformer层之间的长跳跃连接。结果表明，U-ViT在图像和文本到图像生成中取得了破纪录的FID分数。

类似于掩码自编码器（MAE）的方法，掩码扩散Transformer（MDT）也在扩散过程中加入了掩码潜模型，有效提高了对图像中不同对象部分之间上下文关系的学习能力。

如图12所示，MDT会在训练阶段使用侧插值进行额外的掩码token重建任务，以提高训练效率，并学习强大的上下文感知位置嵌入进行推理。与DiT相比，MDT实现了更好的性能和更快的学习速度。

在另一项创新工作中，Diffusion Vision Transformers（DiffiT）采用了时间依赖的自注意力（TMSA）模块来对采样时间步骤上的动态去噪行为进行建模。

此外，DiffiT还采用了两种混合分层架构，分别在像素空间和潜空间中进行高效去噪，并在各种生成任务中实现了新的SOTA。

- 视频Diffusion Transformer

由于视频的时空特性，在这一领域应用DiT所面临的主要挑战是：

（1）如何从空间和时间上将视频压缩到潜空间，以实现高效去噪；

（2）如何将压缩潜空间转换为patches，并将其输入到Transformer中；

（3）如何处理长距离的时空依赖性，并确保内容的一致性。

Imagen Video是谷歌研究院开发的文本到视频生成系统，它利用级联扩散模型（由7个子模型组成，分别执行文本条件视频生成、空间超分辨率和时间超分辨率）将文本提示转化为高清视频。

如图13所示，首先，冻结的T5文本编码器会根据输入的文本提示生成上下文嵌入。随后，嵌入信息被注入基础模型，用于生成低分辨率视频，然后通过级联扩散模型对其进行细化，以提高分辨率。

Blattmann等人提出了一种创新方法，可以将2D潜扩散模型（Latent Diffusion Model, LDM）转换为视频潜扩散模型（Video Latent Diffusion Model, Video LDM）。

语言指令跟随

模型指令调优旨在增强AI模型准确跟随提示的能力。

为了提高文本到视频模型跟随文本指令的能力，Sora采用了与DALL-E 3类似的方法。

该方法涉及训练一个描述性字幕生成模型，并利用该模型生成的数据进一步微调。

通过这种指令调优，Sora能够满足用户的各种要求，确保对指令中的细节给予精确的关注，进而生成的视频能够满足用户的需求。

提示工程

- 文本提示

文本提示对于指导Sora等文本到视频模型，制作既具有视觉冲击力，又能精确满足用户创建视频需求至关重要。

这就需要制作详细的说明来指导模型，以效弥补人类创造力与AI执行能力之间的差距。

Sora的提示涵盖了广泛的场景。

最近研究工作，如VoP、Make-A-Video和Tune-A-Video等，都展示了提示工程如何利用模型的NLP能力来解码复杂指令，并将其呈现为连贯、生动和高质量的视频叙事。

如图15所示经典Sora演示，「一个时髦的女人走在霓虹灯闪烁的东京街头...... 」

提示中，包含了人物的动作、设定、角色出场，甚至是所期望的情绪，以及场景氛围。

就是这样一个精心制作的文本提示，它确保Sora生成的视频与预期的视觉效果非常吻合。

提示工程的质量取决于对词语的精心选择、所提供细节的具体性，以及对其对模型输出影响的理解。

- 图像提示

图像提示就是要给生成的视频内容和其他元素（如人物、场景和情绪），提供一个视觉锚点。

此外，文字提示还可以指示模型将这些元素动画化，例如，添加动作、互动和叙事进展等层次，使静态图像栩栩如生。

通过使用图像提示，Sora可以利用视觉和文本信息将静态图像转换成动态、由叙事驱动的视频。

在图16中，展示了AI生成的视频「一只头戴贝雷帽、身穿高领毛衣的柴犬」、「一个独特的怪物家族」、「一朵云组成了SORA一词」，以及「冲浪者在一座历史悠久的大厅内乘着巨浪」。

这些例子展示了通过DALL-E生成的图像提示Sora可以实现的功能。

- 视频提示

视频提示也可用于视频生成。

最近的研究，如Fast-Vid2Vid表明，好的视频提示需要具体，且灵活。

这样既能确保模型在特定目标（如特定物体和视觉主题的描述）上获得明确的指导，又能在最终输出中富有想象力的变化。

例如，在视频扩展任务中，提示可以指定扩展的方向（时间向前或向后）和背景或主题。

在图17（a）中，视频提示指示Sora向后延伸一段视频，以探索原始起点的事件。

（b）所示，在通过视频提示执行视频到视频的编辑时，模型需要清楚地了解所需的转换，例如改变视频的风格、场景或氛围，或改变灯光或情绪等微妙的方面。

（c）中，提示指示Sora连接视频，同时确保视频中不同场景中的物体之间平滑过渡。

Sora对各行业的影响

最后，研究团队还针对Sora可能在电影、教育、游戏、医疗保健和机器人领域产生的影响做了预测。

随着以Sora为代表的视频扩散模型成为前沿技术，其在不同研究领域和行业的应用正在迅速加速。

这项技术的影响远远超出了单纯的视频创作，为从自动内容生成到复杂决策过程等任务提供了变革潜力。

电影

视频生成技术的出现预示着电影制作进入了一个新时代，用简单的文本中自主制作电影的梦想正在变为现实。

研究人员已经涉足电影生成领域，将视频生成模型扩展到电影创作中。

比如使用MovieFactory，利用扩散模型从ChatGPT制作的脚本中生成电影风格的视频，整个工作流已经跑通了。

MobileVidFactory只需用户提供简单的文本，就能自动生成垂直移动视频。

而Sora能够毫不费力地让用户生成效果非常炸裂的电影片段，标志着人人都能制作电影的时刻来临了。

这会大大降低了电影行业的准入门槛，并为电影制作引入了一个新的维度，将传统的故事讲述方式与人工智能驱动的创造力融为一体。

这些AI的影响不仅仅是让电影制作变得简单，还有可能重塑电影制作的格局，使其在面对不断变化的观众喜好和发行渠道时，变得更加容易获得，用途更加广泛。

机器人

人们都说，2024年是机器人元年。

正是因为大模型的爆发，再加上视频模型的迭代升级，让机器人进入了一个新时代——

生成和解释复杂的视频序列，感知和决策能力增强。

尤其，视频扩散模型释放了机器人新能力，使其能够与环境互动，并以前所未有的复杂度和精确度执行任务。

将web-scale扩散模型引入机器人技术，展示了利用大规模LLM增强机器人视觉和理解能力的潜力。

比如，在DALL-E加持下的机器人，能够准确摆好餐盘。

另一种视频预测新技术——潜在扩散模型（Latent diffusion model。

它可以通过语言指导，让机器人能够通过预测视频中的动作结果，来理解和执行任务。

此外，机器人研究对环境模拟的依赖，可以通过视频扩散模型——能创建高度逼真的视频序列来解决。

这样一来，就能为机器人生成多样化的训练场景，打破真实世界数据匮乏所带来的限制。

研究人员相信，将Sora等技术整合到机器人领域有望取得突破性发展。

利用Sora的强大功能，未来的机器人技术将取得前所未有的进步，机器人可以无缝导航并与周围环境进行互动。

另外，对于游戏、教育、医疗保健等行业，AI视频模型也将为此带来深刻的变革。

最后，好消息是，Sora现在虽然还没有开放功能，但我们可以申请红队测试。

从申请表中可以看出，OpenAI正在寻找以下认知科学、化学、生物、物理、计算机、经济学等领域的专家。

符合条件的同学，可以上手申请了！

参考资料：

https://twitter.com/_jasonwei/status/1762930762180161795

https://arxiv.org/abs/2402.17177

内容中包含的图片若涉及版权问题，请及时与我们联系删除