5月5日一篇声称「开源AI将击败谷歌和OpenAI」的SemiAnalysis博文引起热议。

这篇文章详细介绍了最近在Discord群组由匿名人士泄露的一份Google内部的文件,该文件声称,开源AI将击败谷歌和OpenAI,同时声称:“我们没有护城河,OpenAI也没有”。(查看原文

「开源」

围绕 Meta 的 LLaMA 等开源模型,整个社区正在迅速构建与 OpenAI、谷歌大模型能力类似的模型,而且开源模型的迭代速度更快,可定制性更强,更有私密性……「当免费的、不受限制的替代品质量相当时,人们不会为受限制的模型付费。」作者写道。

作者推测为Luke Sernau。

对此,Stability AI 的创始人 Emad Mostaque 有另外的看法:

「虽然这篇文章符合我们的大部分论点,但我认为它对护城河的实际含义存在误解 以创新为护城河很难建立企业,基础要求太高 数据、分发、优质产品是护城河。」

 

他指出,「巨大的模型不是办法,但社区聚合是一个有效办法,因为谷歌的核心业务是聚合,而创新只是画龙点睛」。

得克萨斯大学奥斯汀分校教授 Alex Dimakis 发表了如下观点:
  • 开源 AI 正在取得胜利,我同意,对于全世界来说,这是件好事,对于构建一个有竞争力的生态系统来说也是好事。虽然在 LLM 领域,我们还没有做到这一点,但我们刚刚让 OpenClip 击败了 openAI Clip,并且 Stable Diffusion 比封闭模型更好。
  • 你不需要庞大的模型,高质量的数据更有效、更重要,API 背后的羊驼模型进一步削弱了护城河。
  • 你可以从一个好的基础模型和参数高效微调(PEFT)算法开始,比如 Lora 在一天内就能运行得非常好。算法创新终于开始了!
  • 大学和开源社区应该组织更多的工作来管理数据集,训练基础模型,并像 Stable Diffusion 那样建立微调社区。

 这份文件最初由一位匿名人士在公共 Discord 服务器上分享,获得转载授权的产业媒体 SemiAnalysis 表示,他们已经验证了这份文件的真实性。

以下为博客正文,翻译转自深思圈


01.我们没有护城河,OpenAI也没有

我们一直在关注OpenAI的动向。谁将达到下一个里程碑?下一步将会是什么?我们无法赢得这场竞赛,OpenAI也同样如此。在我们争执的同时,第三方力量悄然取得了优势。

开源,他们正在超越我们。我们认为的“重大开放性问题”如今已经解决,并投入人们的使用。以下仅列举一些:

  • 手机上的LLMs:人们在Pixel 6手机上以每秒5个token的速度运行基础模型。

  • 可扩展的个人AI:你可以在一个晚上用笔记本电脑微调个性化AI。

  • 负责任的发布:这一点并不是“解决”了,而是“消除”了。整个互联网上有许多没有任何限制的艺术模型网站,文本也紧随其后。

  • 多模态:当前多模态ScienceQA的最新技术水平在一个小时内就得到了训练。

虽然我们的模型在质量上仍然略占优势,但差距正在惊人的速度缩小。开源模型更快、更可定制、更具隐私性,性能更强。他们用100美元和130亿参数做到了我们在1000万美元和5400亿参数下仍在努力的事情。而且他们只用了几周时间,而不是几个月。这对我们意味着:

  • 我们没有秘制配方。我们最好的希望是向谷歌以外的其他人学习并与之合作。我们应该优先考虑支持第三方集成。

  • 当有免费、无限制的替代品质量相当时,人们不会为受限制的模型付费。我们应该考虑我们真正的价值在哪里。

  • 庞大的模型拖慢了我们的步伐。从长远来看,最好的模型是那些可以快速迭代的模型。既然我们知道在参数少于200亿的情况下有什么可能,我们应该更关注小型变体。

02.发生了什么

三月初,开源社区得到了他们的第一个真正有能力的基础模型,因为Meta的LLaMA被泄露给了公众。它没有指令或对话调整,也没有RLHF。然而,社区立即认识到了他们所得到的东西的重要性。

随后迅速涌现出大量创新,每隔几天就有重大发展(详见《时间线》)。仅仅一个月后,我们看到了具有指令调整(instruction tuning)、量化(quantization)、质量改进(quality improvements)、人类评估(human evals)、多模态、RLHF等功能的变体,其中许多变体是相互依赖的。

最重要的是,他们已经在很大程度上解决了规模问题,使得任何人都可以参与其中。许多新想法来自普通人。训练和实验的门槛已经从一个大型研究机构的全部产出降低到一个人、一个晚上和一台性能强大的笔记本电脑。

03.为什么我们本可以预见到

在很多方面,这对于任何人来说都不应该是一个惊喜。当前开源LLM的复兴紧随着图像生成领域的复兴之后。社区对这两者之间的相似之处并不陌生,许多人将这称为LLM的“Stable Diffusion Moment”。

在这两种情况下,低成本的公共参与得以实现,因为有一种称为低秩适应(Low rank adaptation,LoRA)的大大降低成本的微调机制,结合了规模方面的重大突破(图像合成的Latent Diffusion,LLM的Chinchilla)。在这两种情况下,获得足够高质量模型的访问引发了来自世界各地个人和机构的大量想法和迭代。在这两种情况下,这些迅速超过了大型参与者。

在图像生成领域,这些贡献起到了关键作用,使Stable Diffusion走上了与Dall-E不同的道路。拥有开放模型导致了产品整合、市场、用户界面和创新,而这些对于Dall-E来说并未发生。

效果是明显的:在文化影响方面迅速占据主导地位,与之相比,OpenAI的解决方案变得越来越无关紧要。是否会发生在LLM上同样的事情还有待观察,但总体结构元素是相同的。

04.我们错过了什么

推动开源近期成功的创新直接解决了我们仍在努力应对的问题。更多关注他们的工作可以帮助我们避免重复发明轮子。LoRA是一种我们应该更加关注的非常强大的技术,LoRA通过将模型更新表示为低秩分解(low-rank factorizations)来工作,从而将更新矩阵的大小减小多达数千倍。这使得模型微调的成本和时间大大减少。在消费者硬件上花几个小时个性化语言模型是一件大事,尤其是对于涉及近乎实时地整合新的、多样化知识的愿景。这项技术的存在在谷歌内部被低估了,尽管它直接影响了我们一些最雄心勃勃的项目。

05.从头开始重新训练模型是困难的途径

使LoRA如此有效的部分原因是它(与其他微调形式一样)是可堆叠的。诸如指令调整之类的改进可以应用,然后在其他贡献者添加对话、推理或工具使用时加以利用。虽然单个微调的秩较低(low rank),但它们的总和不必如此,从而允许随着时间的推移累积对模型进行全秩(full-rank)更新。这意味着随着新的、更好的数据集和任务变得可用,模型可以以较低的成本保持最新状态,而无需支付完整运行的成本。

相比之下,从头开始训练巨型模型不仅会丢弃预训练,还会丢弃已经在顶部进行的迭代改进。在开源世界,这些改进很快就会占据主导地位,使得完全重新训练变得极其昂贵。我们应该认真思考每个新的应用或想法是否真的需要一个全新的模型。如果我们确实有重大的架构改进,使得无法直接重用模型权重,那么我们应该投资于更具侵略性的蒸馏形式(distillation),以便尽可能保留前一代的能力。

06.从长远来看,如果我们能在小模型上更快地迭代,大型模型并不会更有能力

LoRA更新对于最受欢迎的模型尺寸非常便宜(约100美元)。这意味着几乎任何有想法的人都可以生成一并将其发布。培训时间少于一天是常态。在这个速度下,这些微调的累积效果很快就能弥补起始尺寸劣势。事实上,从工程师小时的角度来看,这些模型的改进速度远远超过了我们在最大型号上所能做到的,而且最好的模型已经与ChatGPT几乎无法区分。专注于维护地球上一些最大的模型实际上让我们处于劣势。

07.数据质量比数据规模更具可扩展性

许多项目通过在小型、精选数据集上进行训练来节省时间。这表明数据扩展规律具有一定的灵活性。这些数据集的存在源于《数据并非如你所想》一文中的思考线,它们正迅速成为谷歌以外进行训练的标准方式。这些数据集是通过合成方法(例如从现有模型中筛选最佳响应)和从其他项目中收集而来,谷歌在这两者中都不占主导地位。幸运的是,这些高质量数据集是开源的,所以我们可以自由使用。

08.与开源直接竞争是输不起的游戏

近期的进展对我们的商业策略有直接、即时的影响。如果有一个免费的、高质量的、没有限制的替代方案,谁会为带有使用限制的谷歌产品付费?而且我们不应该指望能够迎头赶上。现代互联网之所以依赖开源,是有原因的。开源有一些我们无法复制的显著优势。

09.我们需要他们胜过他们需要我们

保密我们的技术一直是一个脆弱的命题。谷歌的研究人员定期离开公司去其他公司,所以我们可以假设他们知道我们所知道的一切,并将继续这样做,只要这个渠道还在。

但在LLM领域的尖端研究变得负担得起的情况下,保持技术竞争优势变得更加困难。全球各地的研究机构在彼此的工作基础上进行建设,以广度优先的方式探索解决方案空间,远超我们自身的能力。我们可以试着紧紧抓住我们的秘密,而外部创新会削弱它们的价值,或者我们可以试着互相学习。

10.与公司相比,个人受许可限制的程度较小

许多创新都是基于Meta泄露的模型权重发生的。虽然这肯定会随着真正的开源模型变得更好而改变,但关键是他们不必等待。法律规定的“个人使用”以及起诉个人的实际困难意味着个人在这些技术炽热时就能获得这些技术。

11.作为自己的客户意味着你了解用例

浏览人们在图像生成领域创建的模型,有大量的创意涌现,从动漫生成器到HDR风景。这些模型由深入特定子类型的人使用和创建,赋予了我们无法企及的知识深度和共鸣。

12.拥有生态系统:让开源为我们服务

矛盾的是,在所有这些事件中,唯一明确的赢家是Meta。因为泄露的模型是他们自己的,他们有效地获得了整个星球价值连城的免费劳动力。由于大多数开源创新都发生在他们架构之上,没有什么能阻止他们直接将其纳入产品中。  

拥有生态系统的价值不言而喻。Google本身已经成功地在其开源产品(如Chrome和Android)中使用了这种范例。通过拥有创新发生的平台,Google巩固了自己作为思想领袖和方向制定者的地位,并赢得了塑造超越自身思想叙事能力。  

我们控制模型越紧密,就会使开放式替代方案更具吸引力。Google和OpenAI都倾向于采取发布模式来保持对其模型使用方式严格控制以进行防御性调整。但这种控制只是虚幻的。任何寻求将LLMs用于未经批准目的人士可以随意选择可供免费使用的模型。  

谷歌应该成为开源社区领导者,并通过与广泛对话合作来带头。这可能意味着采取一些不舒适的步骤,例如发布小型ULM变体的模型权重。这必然意味着放弃对我们模型的某些控制。但这种妥协是不可避免的。我们不能希望既推动创新又控制它。

13.尾声:OpenAI 未来的路在何方?

所有关于开源的讨论可能让人觉得不公平,因为OpenAI目前的政策是封闭的。如果他们不分享,为什么我们必须分享呢?但事实是,我们已经通过源源不断地被挖走的高级研究人员与他们分享了一切。除非我们遏制这种趋势,否则保密就毫无意义了。

最后,OpenAI并不重要。他们在与开源的相对立场上犯了与我们相同的错误,他们保持优势的能力必然受到质疑。开源替代品可以并最终会取代他们,除非他们改变立场。至少在这方面,我们可以先行一步。

14.时间线

2023年2月24日 - LLaMA发布Meta发布LLaMA,开源代码,但不开源权重。此时,LLaMA尚未进行指令或对话调优。与许多当前模型一样,它是一个相对较小的模型(参数分别为7B、13B、33B和65B),经过相对较长时间的训练,因此与其大小相比具有相当强大的能力。

2023年3月3日 - 不可避免的事情发生了

一周内,LLaMA被泄露给公众。这对社区的影响不可估量。虽然现有许可证阻止了它被用于商业目的,但突然之间任何人都可以尝试进行实验。从此时开始,创新进展迅速。

2023年3月12日 - 语言模型在烤箱上运行

一个多星期后,Artem Andreenko让模型在树莓派上运行。此时,模型运行速度太慢,因为权重必须在内存中分页,实用性不强。尽管如此,这为一系列的模型缩小工作奠定了基础。

2023年3月13日 - 笔记本电脑上的微调

第二天,斯坦福大学发布了Alpaca,为LLaMA增加了指令调优。然而,更重要的是Eric Wang的alpaca-lora仓库,它使用低秩微调在“单个RTX 4090上几小时内”完成了这个训练。

突然之间,任何人都可以微调模型以执行任何操作,这引发了一场关于低成本微调项目的竞争。论文中自豪地描述了他们总共花费了几百美元。更重要的是,低秩更新可以轻松地与原始权重分开分发,使它们摆脱了Meta原始许可的约束。任何人都可以分享和应用它们。

2023年3月18日 - 现在它变快了

Georgi Gerganov使用4位量化使LLaMA在MacBook CPU上运行。这是第一个“无GPU”解决方案,速度足够快,实用性很强。

2023年3月19日 - 一台13B模型实现了与Bard的“平衡”

第二天,一个跨大学合作推出了Vicuna,并使用GPT-4驱动的评估来提供模型输出的定性比较。虽然评估方法值得怀疑,但该模型比早期版本的表现要好得多。培训成本:300美元。

值得注意的是,他们能够使用来自ChatGPT的数据,同时规避其API的限制 - 他们只需从像ShareGPT这样的网站上获取“令人印象深刻”的ChatGPT对话样本。

2023年3月25日 - 选择您自己的模型

Nomic创建了GPT4All,这既是一个模型,更重要的是一个生态系统。这是我们第一次看到模型(包括Vicuna)聚集在一个地方。培训成本:100美元。

2023年3月28日 - 开源GPT-3

Cerebras(不要与我们自己的Cerebra混淆)使用Chinchilla暗示的最佳计算计划(optimal compute schedule)和μ参数化(u-parameterization)暗示的最佳缩放(optimal scaling)来训练GPT-3架构。这在很大程度上优于现有的GPT-3克隆,并且代表了μ参数化在实际应用中的首次确认使用。这些模型是从零开始训练的,这意味着社区不再依赖于LLaMA。

2023年3月28日 - 一小时内完成多模态训练

使用一种新颖的参数有效微调(PEFT)技术,LLaMA-Adapter在一个小时内引入了指令调优和多模态。令人印象深刻的是,他们只用了120万可学习参数。该模型在多模态ScienceQA上刷新了新的SOTA。

2023年4月3日 - 真实的人类无法分辨13B开放模型和ChatGPT之间的区别

伯克利推出了Koala,这是一个完全使用免费可用数据训练的对话模型。他们采取了衡量真实人类在他们的模型和ChatGPT之间的偏好的关键步骤。虽然ChatGPT仍然稍占上风,但超过50%的时间,用户要么更喜欢Koala,要么无所谓。培训成本:100美元。

2023年4月15日 - 开源RLHF达到ChatGPT水平

Open Assistant发布了一个模型,更重要的是,发布了一个用于通过RLHF进行对齐的数据集。在人类偏好方面,他们的模型接近ChatGPT(48.3%与51.7%)。除了LLaMA之外,他们展示了该数据集可以应用于Pythia-12B,为人们提供了使用完全开放堆栈运行模型的选择。此外,由于数据集是公开可用的,它使得对于小型实验者来说,RLHF从不可实现变得便宜且容易。

 

更多消息:

https://www.semianalysis.com/p/google-we-have-no-moat-and-neither 

https://simonwillison.net/2023/May/4/no-moat/ 

https://mp.weixin.qq.com/s/SdQbWvy2awLTMlH6hFr9mA