【编者按:过去几年,一些大的科技公司似乎垄断了不断增长的大语言模型(LLM)市场,但最近一些开源的LLM出现,改变了这种局面。Tech Talks 的创始人 Ben Dickson 发表了一篇名为“How open-source LLMs are challenging OpenAI, Google, and Microsoft”的文章,对这个现象进行了分析。首先,通过在大规模数据集上进行训练,具有几十亿参数的LLM在性能上可以与非常大的模型竞争。其次,可以用非常小的预算和适量的数据对小型LLM进行精细调整。最后,开源LLM的进展速度比封闭生态系统要快得多,因为不同的团队可以在彼此的工作基础上进行构建。文章还提到了开源LLM面临的一些问题,例如基础模型的高昂预训练成本。尽管如此,开源社区的努力将扩大市场,使LLM能够在新的环境中使用,并迫使科技巨头向客户提供更具竞争力的价格。总体而言,LLM市场正在快速演变,这篇文章给我们展示了其中的一些趋势和动态。未来的发展将引人注目,我们拭目以待。我们特将该报道内容编译出来和各位客户、合作伙伴朋友分享。如需转载,请联系我们(ID:15937102830)】
在过去几年中,一些大的科技公司似乎垄断了不断增长的大型语言模型(LLM)市场。最近的大型科技公司的财报显示,它们掌控着市场。特别是微软的公告表明,该公司通过Azure OpenAI服务和OpenAI在其云基础设施上运行的工作贡献,已经从其人工智能服务中建立了一个价值数十亿美元的业务。
然而,最近从谷歌泄露的内部文件表明,由于开源LLM的进步,大型科技公司的市场份额并不像看上去那样牢固。简而言之,该文件表示:“我们没有护城河,OpenAI也没有。”市场的动态正在逐渐从“越大越好”转向“越便宜越好”、“更高效越好”和“可定制化越好”。虽然云端LLM和生成式人工智能产品始终会有市场,但客户现在也有开源选项可供探索。
01
大型语言模型
的护城河
《GPT-3》论文于2020年发表,展示了规模的潜力。这个拥有1750亿个参数的模型可以完成许多未经过训练的任务。GPT模型的演进表明,如果继续创建更大的语言模型并在更大的数据集上进行训练,将能够创造出更具能力的模型。
《GPT-3》的成功加大了人们对创建更大语言模型的兴趣。一些研究论文探索了LLM的令人着迷的特性,包括它们的新兴能力。与此同时,人工智能研究实验室竞相创建越来越大的模型。Gopher(2800亿参数)、LaMDA(1370亿参数)、PaLM(5400亿参数)和Megatron-Turing(5300亿参数)是其中的一些例子。
然而,与此同时,LLM社区经历了一个不太令人愉快的变化。随着关注点转向创建更大的LLM,研究和创新的成本急剧上升。像GPT-3这样的模型的训练和运行成本高达数百万美元。因此,对LLM的研究工作被限制在富有的几家公司和与它们相关的人工智能实验室中。
随着人工智能实验室对盈利组织的财务支持依赖性增加,它们承受着越来越大的压力来将自己的技术商业化。这推动它们围绕自己的技术创建产品。同时,它们需要在产品周围构建“护城河”。护城河是一种防御机制,阻止竞争对手复制你的产品和业务。
LLM的关键护城河包括:
1)训练数据
2)模型权重
3)训练和推断成本
大型科技公司已经在第三个方面(成本)占据了优势,因为只有它们能够支付训练和运行非常大的LLM的成本。即使是像BLOOM和OPT175-B这样的GPT-3开源替代品对于资金紧张的组织来说,实际上也是无法接触的,它们无法承担购买或租赁成千上万个GPU的费用。
然而,为了在其他两个领域获得优势,科技公司将该领域推向更加模糊和少共享的方向。OpenAI可能是最典型的例子。它从一个公开发布所有研究成果的人工智能实验室转变为出售对其模型的API访问的创业公司。它甚至不再发布有关其训练数据和模型架构的详细信息。
很长一段时间以来,似乎是一个向下竞争的过程,大型科技公司向LLM投入更多资金,并使该领域变得更加神秘。
02
开源的
语言模型(LLMs)
随着LLM的力量集中在少数几家大型科技公司中,开源社区做出了回应。在ChatGPT发布后,展示了指令跟随型语言模型在不同应用中的巨大潜力后,他们的努力加倍。在过去几个月中,我们看到了几个开源LLM的发布,挑战了大型科技公司所建立的整个商业模式。
这些开源LLM替代品证明了几个关键点。首先,如果将几十亿参数的LLM用大规模数据集进行训练,它们在性能方面可以与非常大的模型竞争。其次,您可以通过很小的预算和适量的数据对小型LLM进行精细调整,达到令人印象深刻的效果。最后,这并不是一个新观点,开源LLM的进展速度比封闭生态系统要快得多,因为不同的团队可以在彼此的工作基础上进行构建。
大多数这些LLM的参数范围在70到130亿之间,并且可以在强大的消费级GPU上运行。有趣的是,这一运动是由Meta发布的LLaMA(一组开源LLM)的推出所引发的。随后,不同大学的研究人员发布了Alpaca和Vicuna两个模型,它们是基于LLaMA进行的微调,用于类似ChatGPT的指令跟随任务。
LLaMA的许可证禁止用于商业目的。Databricks的Dolly 2通过在EleutherAI的Pythia模型基础上进行开发解决了这个问题。而Open Assistant是一个完全开放的模型,提供对一切的访问权限,包括代码、模型权重和训练数据。
这些模型还利用了低秩适应(LoRA)等技术,可以将训练成本降低到千分之一。
这些模型为希望在其应用中使用LLM的企业提供了替代方案。现在,他们可以使用低成本模型,在自己的服务器上运行,并可以用非常小的预算频繁地使用自己的数据进行更新。
对于大型科技公司来说,这意味着什么?正如Google的备忘录所警示的那样,“……在现在可负担得起LLM的前沿研究的情况下,保持技术竞争优势变得更加困难。世界各地的研究机构正在构建在彼此工作基础上的研究,以广度优先的方式探索解决方案空间,远远超过我们自己的能力。我们可以试图紧密保守自己的秘密,而外部创新则会削弱其价值,或者我们可以试着互相学习。”
03
闭源的LLM市场
会发生什么?
显然,大型科技公司将无法垄断LLM市场。但这并不意味着云端语言模型市场将消失。正如AI研究人员Andrej Karpathy所指出的,开源LLM生态系统仍然面临一些问题,包括基础模型的高昂预训练成本。
与此同时,开源LLM并不适合所有人。对于那些没有内部机器学习人才且希望通过几个API调用快速集成LLM到他们的应用程序中的公司来说,无服务器黑盒解决方案仍然非常具有吸引力。与此同时,微软和谷歌等公司通过其应用程序和客户基础拥有非常强大的分销渠道。
然而,开源社区的努力将扩大市场,使得在新环境中(如您自己的笔记本电脑)使用LLM成为可能。同时,它们也将在一定程度上使市场商品化,并迫使科技巨头向客户提供更具竞争力的价格。LLM领域正在快速发展。未来几周和几个月将会看到什么样的发展将是非常有趣的。
一款AI生成头像工具,可以生成各种风格的头像,快来试试吧~
权益福利:
1、AI 行业、生态和政策等前沿资讯解析;
2、最新 AI 技术包括大模型的技术前沿、工程实践和应用落地交流(社群邀请人数已达上限,可先加小编微信:15937102830)
源于硅谷、扎根中国,上海殷泊信息科技有限公司 (MoPaaS魔泊云) 是中国领先的人工智能(AI) 平台和服务提供商,为用户的数字转型、智能升级和融合创新直接赋能。针对中国AI应用和工程市场的需求,基于自主的智能云平台专利技术,MoPaaS 魔泊云在业界率先推出新一代开放的AI平台为加速客户AI技术创新和应用落地提供高效的GPU算力优化和规模化AI模型开发运维 (ModelOps) 能力和服务。MoPaaS魔泊云 AI平台已经服务在教学科研、工业制造、能源交通、互联网、医疗卫生、政府和金融等行业超过300家国内外满意的客户的AI技术研发、人才培养和应用落地工程需求。MoPaaS魔泊云致力打造全方位开放的AI技术和应用生态。同时,MoPaaS魔泊云在浙江嘉兴设立安尚云信信息科技有限公司全资子公司,致力于推动当地的科技产业发展,并积极培养本地专业技术人才,创造更大的社会和经济效益。MoPaaS 被Forrester评为中国企业级云平台市场的卓越表现者(Strong Performer)。
END
▼ 往期精选 ▼
2、Sam Altman公开谈OpenAI 的下一步发展计划
▼点击下方“阅读原文”,查看文章来源!
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢