Dissecting the NVIDIA Blackwell Architecture with Microbenchmarks

简介

科学研究的快速发展对计算能力提出了更高需求，而这一需求部分正通过GPU得到满足。本文通过精心设计的微基准测试，对现代NVIDIA Blackwell架构进行了微架构层面的分析。我们揭示了包括内存层次结构、流式多处理器（SM）执行流水线，以及SM子核心单元在内的多个关键子系统，其中也涵盖了支持FP4和FP6精度的第五代张量核心。为了深入理解NVIDIA GPU的各项关键技术特性，我们研究了延迟、吞吐量、缓存行为以及调度细节，揭示了Blackwell架构设计中的一些精细调优指标。为了形成全面的分析，我们分别使用GeForce RTX 5080和H100 PCIe对Blackwell架构与前代Hopper架构进行了对比。我们对测试结果进行了评估与比较，展示了架构演进带来的性能提升与个别场景下的性能退化。此外，我们也探讨了在不同工作负载下功耗效率与能耗的表现。我们的研究成果为应用程序开发者、编译器开发者以及性能工程师在基于Blackwell的平台上优化其工作负载提供了可操作的见解，同时也为日益增长的GPU架构研究领域提供了新的数据支持。
图表
解决问题

这篇论文旨在深入分析NVIDIA最新的Blackwell GPU架构，通过微基准测试揭示其在内存层次结构、SM执行流水线、子核心单元等方面的性能特性，并与上一代Hopper架构进行对比，评估其性能提升和退化情况。此外，论文还试图研究Blackwell架构在不同工作负载下的能效表现。
关键思路

论文采用系统化的微架构级基准测试方法，针对Blackwell架构的关键子系统（如第五代Tensor Core支持FP4/FP6精度）进行性能剖析，并与前代Hopper架构进行横向比较，从而揭示其设计优化点与潜在瓶颈。
其它亮点

1. 对Blackwell架构的多个关键子系统进行了细致的性能建模与测量 2. 揭示了Blackwell相比Hopper在延迟、吞吐量、缓存行为及调度机制方面的具体变化 3. 分析了新引入的FP4/FP6精度Tensor Core的性能特征 4. 提供了关于GPU能效与能耗在不同负载下表现的实证研究 5. 为应用开发者、编译器作者和性能工程师提供优化建议
相关研究

1. 《A Survey of GPU Architecture Research》 - 对GPU架构研究的综述性论文 2. 《Microbenchmarking the NVIDIA Ampere GPU Architecture》 - 针对Ampere架构的类似微基准测试研究 3. 《Performance Analysis of NVIDIA Hopper Architecture using Synthetic Workloads》 - 对Hopper架构早期的性能分析 4. 《Tensor Cores in Modern GPUs: A Survey on Capabilities and Applications》 - 关于Tensor Core技术及其应用的研究综述 5. 《Power Efficiency in High-Performance GPU Architectures》 - 探讨GPU高性能下的能耗问题

许愿开讲

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论