。
3 月 8 日,OpenAI 的 Sora 团队接受了油管知名博主 Marques Brownlee (简称 MKBHD) 的采访,透露了很多之前从未公开的信息,比如正式上线时间、什么时候加入音频生成以及详细的技术路线等。
文章转载自「赛博禅心」,Founder Park 略有增删。
01
Sora 的原理和技术缺陷
MKBHD:能邀请各位百忙之中抽空来参加这次对话,真是十分荣幸~在对话开始之前,要不先做个自我介绍?比如怎么称呼,负责哪些事情?
Bill Peebles:Bill Peedles,在 OpenAI 负责 Sora 项目。
Tim Brooks:Tim Brooks,负责 Sora 项目的研究。
Aditya Ramesh:Aditya,一样的,也是负责人。
MKBHD:我对 Sora 了解一些,主要还是看了你们发布的那些宣传资料、网站, 还有一些演示视频,真挺牛的。能简单说说 Sora 究竟是咋实现的吗?我们之前有讨论过 DALL-E 和 Diffusion,但说实话,我对 Sora 的原理确实摸不透。
Bill Peebles:简单来说,Sora 是个生成模型。最近几年,出现了很多很酷的生成模型,从 GPT 系列的语言模型到 DALL-E 这样的图像生成模型。
Sora 是专门生成视频的模型。它通过分析海量视频数据,掌握了生成各种现实和虚拟场景的视频内容的能力。
具体来说,它借鉴了 DALL-E 那样基于扩散模型的思路,同时也用到了 GPT 系列语言模型的架构。可以说,Sora 在训练方式上和 DALL-E 比较相似,但架构更接近 GPT 系列。
MKBHD:听起来,Sora 像其他大语言模型一样,是基于训练数据来创造内容等。那么,Sora 的训练数据是什么呢?
Tim Brooks:这个不方便说太细😊 但大体上,包括公开数据及 OpenAI 的被授权数据。
不过有个事儿值得分享:以前,不论图像还是视频模型,大家通常只在一个固定尺寸上进行训练。而我们使用了不同时长、比例和清晰度的视频,来训练 Sora。
至于做法,我们把各种各样的图片和视频,不管是宽屏的、长条的、小片的、高清的还是低清的,我们都把它们分割成了一小块一小块的。
接着,我们可以根据输入视频的大小,训练模型认识不同数量的小块。
通过这种方式,我们的模型就能够更加灵活地学习各种数据,同时也能生成不同分辨率和尺寸的内容。
MKBHD:你们已经开始使用、构建和发展它一段时间了,可否解答我一个疑惑?我本身是做视频的,能想到这里要处理的东西有很多,比如光线啊、反光啊,还有各种物理动作和移动的物体等等。
所以我就有个问题:就目前而言,你觉得 Sora 擅长做什么?哪些方面还有所欠缺?比如我看到有个视频里一只手竟然长了六个手指。
Tim Brooks:Sora 特别擅长于写实类的视频,并且可以很长,1 分钟那么长,遥遥领先。
但在一些方面它仍然存在不足。正如你所提到的,Sora 还不能很好的处理手部细节,物理效果的呈现也有所欠缺。比如,在之前发布的一个 3D 打印机视频中,其表现并不理想。特定场景下,比如随时间变化的摄像机轨迹,它也可能处理不佳。因此,对于一些物理现象和随时间发生的运动或轨迹,Sora 还有待改进。
MKBHD:看到 Sora 在一些特定方面做得这么好,实在是挺有趣的。
像你提到的,有的视频在光影、反射,乃至特写和纹理处理上都非常细腻。这让我想到 DALL-E,因为你同样可以让 Sora 模仿 35mm 胶片拍摄的风格,或者是背景虚化的单反相机效果。
但是,目前这些视频还缺少了声音。我就在想,为 AI 生成的视频加上 AI 生成的声音,这个过程是不是特别有挑战性?是不是比我原先想象的要复杂很多?你们认为要实现这样的功能,我们还需要多久呢?
Bill Peebles:这种事情很难具体说需要多久,并非技术难度,而是优先级排期。
我们现在的当务之急是要先把视频生成模型搞得更强一些。毕竟,以前那些 AI 生成的视频,最长也就四秒,而且画质和帧率都不太行。所以,我们目前的主要精力都在提升这块。
当然了,我们也觉得视频如果能加上声音,那效果肯定是更棒的。但现在,Sora 主要还是专注于视频生成。
02
Sora 暂时未定发布时间,生成视频会加入水印
MKBHD:你们在 Sora 身上做了大量工作,它的进步有目共睹。我很好奇,你们是怎么判断它已经达到了可以向世界展示的水平的?
就像 DALL-E 一样,它在发布之初就惊艳全场,这一定是一个值得铭记的时刻。另外,在 Sora 已经表现出色的方面,你们是如何决定下一步的改进方向的呢?有什么标准或者参考吗?
Tim Brooks:你可能会注意到,我们目前并没有正式的发布 Sora,而是通过比如博客、Twitter、Tiktok 等渠道发布一些视频。这里的主要原因是,我们希望在真正准备好之前,更多的获得一些来自用户的反馈,了解这项技术如何能为人们带来价值,同时也需要了解在安全方面还有哪些工作要做,这将为我们未来的研究指明方向。
现在的 Sora 还不成熟,也还没有整合到 ChatGPT() 或其他任何平台中。我们会基于收集到的意见进行不断改进,但具体内容还有待探讨。
我们希望通过公开展示来获取更多反馈,比如从安全专家那里听取安全意见,从艺术家那里了解创作思路等等,这将是我们未来工作的重点。
MKBHD:有哪些反馈,分享一下?
Tim Brooks:有一个:用户希望对生成的视频有更精细、直接的控制,并非只有简单的提示词。
这个挺有趣的,也这无疑是我们未来要重点考虑的一个方向。
MKBHD:确实,有些用户可能只是想确保视频是宽屏或竖屏,或者光线充足之类的,而不想花太多精力去设计复杂的提示词。这个想法很有意思。
下一个话题,未来 Sora 是否有可能生成出与真实视频毫无二致的作品呢?我猜是可以的。就像 DALL-E 那样,随着时间发展,越来越强。
Aditya Ramesh:我也相信,因此我们会变得变得更为谨慎。
人们应该知道他所看到的视频,是真实的,还是 AI 生成的。我们希望 AI 的能力不会被用到造谣上。
MKBHD:在 Sora 生成的视频中,在右下角都有水印,这确实很明显。但是,像这样的水印可以被裁剪掉。
我很好奇,有没有其他方法可以识别 AI 生成的视频?
Aditya Ramesh:对于 DALL·E 3,我们训练了一种溯源分类器,可以识别图像是否由模型生成。
我们也在尝试将此应用于视频,虽然不完美,但这是第一步。
MKBHD:懂了。就像是加上一些元数据或者某种嵌入的标志,这样如果你操作那个文件,你就知道它是 AI 生成的。
Aditya Ramesh:C2PA 就是这样做的,但我们训练的分类器可以直接应用于任何图像或视频,它会告诉你这个媒体是否是由我们的某个模型生成的。
MKBHD:明白了。我还想知道你的个人感受。显然,你们必须等到觉得 Sora 准备好了,可以向世界展示它的能力。看到其他人对 Sora 的反应,你有什么感觉呢?
有很多人说「太酷了,太神奇了」,但也有人担心「哦不,我的工作岌岌可危」。你是怎么看待人们各种各样的反应的?
Aditya Ramesh:我能感受到人们对未来的焦虑。作为使命,我们会以安全负责的方式推出这项技术,全面考虑可能带来的各种影响。
但与此同时,我也看到了许多机遇:现在如果有人想拍一部电影,由于预算高昂,要获得资金支持可能非常困难-制片公司需要仔细权衡投资风险。而这里,AI 就可以大幅降低从创意到成片的成本,创造不同。
MKBHD:Sora 和 DALL·E 确实有很多相似之处,尤其是在使用场景上。
我自己就经常用 DALL·E 来设计各种概念图,帮助很大。我相信对于 Sora 来说, 类似的创意应用场景也会有无限可能。
我知道,Sora 现在还没具体的开放时间,但你觉会很快吗?
Aditya Ramesh:我觉得不会那么快,我觉得😊
03
Sora 的目标是模拟自然,再超越自然
MKBHD:最后一个问题是:在将来,当 Sora 能制作出带声音的、极度逼真的、5 分钟的 YouTube 视频的时候,会出现哪些新的、要应对的问题?
更进一步说,相较于图片,视频制作的复杂的要高得多。但视频则涉及到时间、物理等多个维度,还有反射、声音等诸多新的难题。
说实话,你们进入视频生成领域的速度远超我的预期。那么在 AI 生成媒体这个大方向上,下一步会是什么呢?
Tim Brooks:我期待看到人们用 AI 来创造全新的东西。
去复刻已有对东西,不算难事儿;但使用新工具,去创造未曾出现的东西,着实令人心动!
对我来说,一直激励我的,正是让那些真正有创意的人,将一切不可能的事情变成可能,不断推进创造力的边界,这太令人兴奋了!
MKBHD:确实有趣啊!
我觉得,由于它们是基于已有内容训练的,因此生成的东西也只能建立在现有内容之上。要让它们发挥创造力,唯一的办法可能就是通过你给它的 prompt 了。
你需要在如何巧妙地提出要求上下功夫, 琢磨该如何引导它。这么理解对吗?
Bill Peebles:除了 prompt,Sora 还可以通过其他方式引导视频生成。
比如在我们之前发布的报告里,演示了如何将两个的混合输入:左边视频一开始是无人机飞过斗兽场,然后逐渐过渡到右边 - 蝴蝶在水下游动。中间有一个镜头,斗兽场渐渐毁坏,然后被看起来像被珊瑚覆盖,沉入水中。
像这一类的视频生成,无论是技术还是体验,都是完全与以往不同的。
Aditya Ramesh:从某种意义上来说,我们做的事情,就是先模拟自然,再超越自然!
MKBHD:哇,这确实挺酷的,很有意思啊!
Sora 能够越精准地模拟现实,我们就能在它的基础上越快地进行创新和创作。理想情况下,它甚至能成为一种工具,开辟新的创意可能性,激发更多的创造性思维。
真的超级赞!
如果有什么话想对大家说,现在正是个好时机。毕竟,你们是最早开始这个项目的人,比任何人都更早地看到了它的潜力。关于 Sora 和OpenAI,还有什么是你们想让大家知道的吗?
Tim Brooks:我们还特别兴奋的一点是,AI 通过从视频数据中学习,将不仅仅在视频创作方面发挥作用。毕竟,我们生活在一个充满视觉信息的世界,很多关于这个世界的信息是无法仅通过文本来传达的。
虽然像 GPT 这样的模型已经非常聪明,对世界有着深刻的理解,但如果它们无法像我们一样「看到」这个世界,那么它们就会缺失一些信息。
因此,我们对 Sora 及未来可能在 Sora 基础上开发的其他 AI 模型充满期待。通过学习世界的视觉信息,它们将能更好地理解我们所生活的世界,因为有了更深刻的理解,未来它们能够更好地帮助我们。
MKBHD:确实非常酷!我猜背后肯定有大量的计算工作和一群技术大神!
说实话,我一直盼着某天能用上 Sora,有进度来请立即敲我~
Bill Peebles:没问题
MKBHD:谢啦
OpenAI Team:感谢
1000 thousand years later...
MKBHD:对了,我还忘了问他们一个挺有意思的问题。虽然录的时候没问到,但大家都想知道,用一个提示让 Sora 生成一个视频需要多长时间?
我私信问了他们,答案是:得看具体情况,但你可以去买杯咖啡回来,它可能还在忙着生成视频。
所以,答案是「需要挺长一段时间」。
兼职创业,一个人如何在半年内把 AI+Excel 的项目做到 31 万美金 ARR?
Notion CEO:RAG是知识管理的未来,AI将SaaS带入新一轮Bundling
世界最强大模型易主!Anthropic发布Claude 3系列模型,幻觉问题更少了
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢