与之相反,在GenAI领域,硬件层却占据了近90%的利润率。蓦然回首,大家发现,整个产业链基本都在给GPU厂商英伟达“打工”。
那么,当前这种GenAI经济模式是否还会持续下去?该领域未来的价值会在哪些方面累积,又该如何实现?本文对GenAI领域的当前的产业价值分层和利润分配进行了解读,并对未来发展作了预测。
(本文作者Apoorv Agrawal是Altimeter资本的投资人,此前是Palantir的工程师。本文经授权后由OneFlow编译发布,转载请联系授权。原文:https://apoorv03.com/p/the-economics-of-generative-ai)
翻译|张雪聃、宛子琳、杨婷
1
GenAI的价值累积在哪些方面?
半导体层:Nvidia上个季度(截至2024年1月)的数据中心收入约为180亿美元,鉴于其拥有95%以上的市场份额,这部分的年收入预计约为750亿美元。 基础设施层:这一层包括超大规模计算供应商(AWS、GCP、Azure)和主要的推理云(Coreweave、Lambda等)供应商,粗略估算这一层的年收入约为100亿美元。 应用层:语言大模型(OpenAI、Anthropic、xAI等)、图像模型(Midjourney等)以及其他单纯的生成式AI应用。部分GenAI用例可能会将收入伪装成“软件”收入,因此我大胆估算这一层的年收入约为50亿美元。
2
GenAI的利润累积在哪些方面?
应用层:据估计,Anthropic的毛利率约为50-55%。我假设整个应用层的毛利率相同。
基础设施层:我估计基础设施供应商的毛利率约为65%(不包括GPU折旧)。如果包含折旧率,这一数字将下降到25-30%。
半导体层:据估计,NVIDIA在其GenAI数据中心产品上的毛利率超过85%。
3
未来发展方向是什么?
GPU供应的交货时间?目前约为6周 GPU租金价格的趋势?
更好的定价/价值对齐:众所周知,在某些情况下(https://news.ycombinator.com/item?id=37827955),AI应用根本不盈利——尤其对于重度用户来说,因为销售成本(COGS)与使用量挂钩。
通过定制芯片降低TCO:所有超大规模的云服务供应商都在研发自己的半导体体系(包括谷歌、微软、亚马逊和Meta)。这应该会降低总体拥有成本(TCO),因为它不仅能消除利润率叠加,还能让他们专注于工作负载。
改进模型架构:现在有很多非Transformer的架构,如状态空间模型(适用于长上下文窗口的用例,如编码),以及JEPA(适用于视频模型)等等。
降低模型成本:通过批处理、蒸馏、量化、混合专家(MoE)等技术,模型的成本正迅速降低。正如Bill Gurley提到的:
【语言大模型推理最高加速11倍】SiliconLLM是由硅基流动开发的高效、易用、可扩展的LLM推理加速引擎,旨在为用户提供开箱即用的推理加速能力,显著降低大模型部署成本,加速生成式AI产品落地。(技术合作、交流请添加微信:SiliconFlow01)
SiliconLLM的吞吐最高提升2.5倍,时延最高降低2.7倍
数据中心+PCIe:SiliconLLM的吞吐最高提升2.8倍;消费卡场景:SiliconLLM的吞吐最高提升1.7倍
System Prompt场景:SiliconLLM的吞吐最高提升11倍;MoE模型:推理 SiliconLLM的吞吐最高提升5倍