英伟达年终大礼，最强AI GPU曝光！全新B300让o1/o3推理性能上天算力爆表

新智元报道

编辑：编辑部 HYZ

【新智元导读】英伟达的圣诞大礼包曝光，最强B300、GB300算力和显存直接提高50%，模型推理训练性能史诗级提升，同时还打破了利润率下降的魔咒。

多亏了老黄，圣诞节如期而至。

尽管Blackwell GPU多次因硅片、封装和底板问题而推迟发布，但这并不能阻挡他们前进的脚步。

距离GB200和B200的发布才刚刚过去几个月，英伟达便推出了全新一代的AI GPU——GB300和B300。

更为有趣的是，这次看似普通的更新背后，实则内含玄机。其中最为突出的，便是模型的推理和训练性能得到了大幅增强。

而随着B300的推出，整个供应链正在进行重组和转型，赢家将从中获益（获得礼物），而输家则处境不妙（收到煤炭）。

这正是英伟达送给所有超大规模云计算供应商、特定供应链合作伙伴、内存供应商以及投资者的特别「圣诞礼物」

不过就在上周，天风国际分析师郭明錤却在研报中曝出，B300/GB300的DrMOS存在严重的过热问题！

而这，很可能会影响B300/GB300的量产进度。

具体分析如下——

这已经不是Blackwell第一次被曝出存在设计问题了

B300和GB300：绝不仅是一次小升级

根据SemiAnalysis的最新爆料，B300 GPU对计算芯片的设计进行了优化，并采用了全新的TSMC 4NP工艺节点进行流片。

相比于B200，其性能的提升主要在以下两个方面：

1. 算力

FLOPS性能提升50%
功耗增加200W（GB300和B300 HGX的TDP分别达到1.4KW和1.2KW；前代则为1.2KW和1KW）
架构改进和系统级增强，例如CPU和GPU之间的动态功率分配（power sloshing）

2. 内存

HBM容量增加50%，从192GB提升至288GB
堆叠方案从8层HBM3E升级为12层
针脚速率保持不变，带宽仍为8TB/s

专为「推理模型」优化

序列长度的增加，导致KV Cache也随之扩大，从而限制了关键批处理大小和延迟。

因此，显存的改进对于OpenAI o3这类大模型的训练和推理至关重要。

下图展示了英伟达H100和H200在处理1,000个输入token和19,000个输出token时的效能提升，这与OpenAI的o1和o3模型中的思维链（CoT）模式相似。

H100和H200的Roofline模拟，通过FP8精度的Llama 405B模型完成

H100到H200的升级，主要在于更大、更快的显存：

更高的带宽使交互性能普遍提升了43%（H200为4.8TB/s，而H100为3.35TB/s）
更大的批处理规模，使每秒token生成量提升了3倍，进而使成本也降低了约3倍

而对运营商而言，这H100和H200之间的性能与经济差异，远远超过技术参数的数字那么简单。

首先，此前的推理模型时常因请求响应时间长而影响体验，而现在有了更快的推理速度后，用户的使用意愿和付费倾向都将显著提高。

其次，成本降低3倍的效益，可是极为可观的。仅通过中期显存升级，硬件就能实现3倍性能提升，这种突破性进展远远超过了摩尔定律、黄氏定律或任何已知的硬件进步速度。

最后，性能最顶尖、具有显著差异化优势的模型，能因此获得更高溢价。

SOTA模型的毛利率已经超过70%，而面临开源竞争的次级模型利润率仅有20%以下。推理模型可突破单一思维链限制，通过扩展搜索功能提升性能（如o1 Pro和o3），从而使模型更智能地解决问题，提高GPU收益。

当然，英伟达并非唯一能提供大容量显存的厂商。

ASIC和AMD都具备这样的能力。而AMD更是凭借更大的显存容量（MI300X：192GB、MI325X：256GB、MI350X：288GB）占据了优势地位。

不过，老黄手里还有一张「绝对王牌」——NVLink。

NVL72在推理领域的核心优势在于，它能让72个GPU以超低延迟协同工作、共享显存。

而这也是全球唯一具备全连接交换（all-to-all switched connectivity）和全规约运算（all reduce）能力的加速器系统。

英伟达的GB200 NVL72和GB300 NVL72，对以下这些关键能力的实现极其重要——

更高交互性，实现更低思维链延迟
72个GPU分散KV Cache，支持更长思维链，提升智能水平
相比传统8 GPU服务器，具备更优批处理扩展性
支持更多样本并行搜索，提升准确性和模型性能

总体而言，NVL72可以在经济效益上实现10倍以上提升，尤其是在长推理链场景中。

而且，NVL72还是目前唯一能在高批处理下，将推理长度扩展至10万以上token的解决方案。

供应链重构

此前GB200时期，英伟达提供完整的Bianca主板（包含Blackwell GPU、Grace CPU、512GB LPDDR5X内存以及集成在同一PCB上的电压调节模块VRM），同时还提供交换机托盘和铜质背板。
但随着GB300的推出，供应链的结构和产品内容，将发生重大调整。
在新方案GB300中行，英伟达只提供三个核心组件的供应：
搭载在「SXM Puck」模块上的B300
BGA封装的Grace CPU
由美国初创企业Axiado提供的基板管理控制器（HMC），取代了原有的Aspeed方案
终端客户将需要直接采购计算板上的其他组件。同时，第二级内存方案，从焊接式LPDDR5X改为可更换的LPCAMM模块，主要由美光供应。交换机托盘和铜质背板仍由英伟达全权负责。
相比此前仅有纬创和富士康工业互联网（FII）能够制造Bianca计算板的局面，SXM Puck方案打破了原有的市场格局。
它的采用为更多OEM和ODM厂商参与计算托盘制造创造了机会：
纬创在ODM领域受影响最大，Bianca主板份额显著下降
富士康工业互联网通过独家生产SXM Puck及其插座，抵消了Bianca主板业务的损失
英伟达正在寻求Puck和插座的其他供应商，但目前尚未确定新订单
其次，是VRM供应链。
尽管SXM Puck上仍保留部分VRM组件，但主要的板载VRM将由超大规模数据中心运营商和OEM直接从供应商采购：
Monolithic Power Systems的市场份额将因商业模式转变而下降
市场格局重塑为新供应商创造了更多的机会
第三，英伟达在互联技术也取得了突破。
GB300平台搭载了800G ConnectX-8网络接口卡，可在InfiniBand和以太网上提供双倍的扩展带宽。
相较于上一代ConnectX-7，ConnectX-8具有多项显著优势：
带宽提升100%
PCIe通道数从32增至48，支持空冷MGX B300A等创新性架构设计
原生支持SpectrumX，无需借助效率较低的Bluefield 3 DPU（此前400G产品的方案）
对超算中心的影响

在2024年第三季度，受GB200和GB300发布延迟影响，大量订单转向了英伟达价格更高的新一代GPU。
截至上周，所有超算中心均已决定采用GB300方案。这一决策基于两个因素：
GB300提供更高的FLOPS算力和更大的显存容量
客户拥有更多系统定制自主权
此前，由于上市时间压力以及机架、散热和供电密度的重大调整，超算中心此前难以对GB200服务器进行深度定制。
这迫使Meta完全放弃了同时向博通和英伟达采购网络接口卡的计划，转而完全依赖英伟达。类似地，谷歌也放弃了自研网络接口卡方案，转而采用英伟达的解决方案。
对于那些一向精于优化从处理器到网络设备，甚至到螺丝和钣金等各个环节成本的超算中心数千人研发团队来说，为其带去了极大的困扰。
另外，亚马逊的案例最具代表性。他们选择了一个次优配置，导致总拥有成本（TCO）超过了参考设计。
由于使用PCIe交换机和需要风冷的低效200G弹性网络适配器，亚马逊无法像Meta、谷歌、微软、甲骨文、xAI和Coreweave那样部署NVL72机架。
受限于其内部网卡方案，亚马逊被迫采用NVL36架构，却因更高的背板和交换机成本推高了每个GPU的支出。
总体而言，因定制化受限，导致亚马逊的配置方案并不理想。
GB300的推出，为超算中提供了更大自主权，比如可以自主定制主板、散热系统等。
这使得亚马逊能够开发自己的定制主板，将此前需要风冷的组件（如Astera Labs PCIe交换机）整合进水冷系统。
随着更多组件采用水冷设计，加上K2V6 400G网卡将在2025年第三季度实现规模化量产，亚马逊有望重返NVL72架构，显著提升TCO效率。
然而这也带来了一个显著挑战：超算中心需要投入更多资源进行设计、验证和确认工作。
这无疑是超算中心面临的最复杂系统设计项目（除谷歌TPU外）。部分超算中心能够快速完成设计，但设计团队较慢的机构则明显落后。
尽管市场传闻有公司取消订单，但SemiAnalysis观察到由于设计进度较慢，微软可能是最晚部署GB300的机构之一，他们在第四季度仍在采购GB200。
随着部分组件从英伟达转移到原始设计制造商（ODM），客户的总采购成本出现较大差异。
这不仅影响了ODM的收入，更重要的是导致英伟达全年的毛利率产生波动。下面将更详细分析这些变动对英伟达利润产生的影响。
值得一提的是，三星在未来至少9个月内，都无法进入GB200或GB300的供应链。
对英伟达利润的影响

怀着「圣诞精神」的英伟达，在新的定价策略上也颇有看点——这将直接影响Blackwell系列的利润。
随着显存方案从SK海力士和美光的8层HBM3E堆栈升级至12层HBM3E堆栈，显存容量获得了显著提升。
这一升级，直接导致英伟达芯片级物料清单（BOM）成本增加约2,500美元。
成本的增加主要来自——
更高的容量
堆栈层数增加带来的每GB显存溢价
封装良率下降带来的额外成本
第三点也反映出高带宽显存（HBM）在物料成本中的主导地位（随着推理模型对显存容量和带宽需求增加，这一趋势将持续加强）。
总体而言，GB300的平均售价较GB200提高约4,000美元，其中HBM成本增加约2,500美元，而增量利润率不足40%，而GB200整体的利润率维持在70%的中低水平。
然而，由于前述内容变化，英伟达减少了整体供应内容，转由超算中心自行采购，由此，英伟达实现了成本平衡。
首先，英伟达不再提供每个Grace CPU配套的512GB LPDDR5X内存，这抵消了大部分额外的HBM成本支出。
其次，PCB的成本节省最为显著。
综合各项因素，在平均销售价格提升4,000美元的同时，英伟达的物料成本仅增加略超1,000美元。
GB300相对于GB200的增量毛利率达到73%，这意味着在良率保持稳定的情况下，该产品的利润水平基本持平。
这一结果虽然看似平常，但值得注意的是，HBM升级周期通常会导致利润率下降（例如H200、MI325X的情况），而这次这一惯例被打破了。
此外，随着各项工程技术问题的逐步解决，良率将会提升，在度过Blackwell初期的产能爬升期后，利润率预计会在年内逐步改善。
参考资料：
https://semianalysis.com/2024/12/25/nvidias-christmas-present-gb300-b300-reasoning-inference-amazon-memory-supply-chain/#hyperscaler-impacts-with-gb300

内容中包含的图片若涉及版权问题，请及时与我们联系删除

英伟达年终大礼，最强AI GPU曝光！全新B300让o1/o3推理性能上天算力爆表

新智元报道

【新智元导读】英伟达的圣诞大礼包曝光，最强B300、GB300算力和显存直接提高50%，模型推理训练性能史诗级提升，同时还打破了利润率下降的魔咒。

评论