Datawhale分享 

开源周:Day 02,编辑:Datawhale

信息来源|X,机器之心,APPSO
上周五,DeepSeek 发推说本周将是开源周(OpenSourceWeek),并将连续开源五个软件库。

昨天,他们开源了第一个代码库 ——FlashMLA一款用于 Hopper GPU 的高效型 MLA 解码核。

就在刚刚,DeepSeek 第二天的开源项目 DeepEP 正式发布。


DeepSeek 官方在 X 平台发文称:

「很高兴向大家介绍 DeepEP——首个专为 MoE(专家混合)模型训练和推理打造的开源 EP 通信库。

✅ 高效优化的全对全(all-to-all)通信
✅ 支持节点内(intranode)和节点间(internode)通信,兼容 NVLink 和 RDMA
✅ 训练与推理预填充(prefilling)阶段的高吞吐率计算核
✅ 推理解码(decoding)阶段的低延迟计算核
✅ 原生支持 FP8 数据调度
✅ 灵活的 GPU 资源控制,实现计算与通信的重叠处理」

短短发布 1 个多小时,Stars 数已接近 2k。



项目地址:https://github.com/deepseek-ai/DeepEP

接下来,就让我们看下这个开源项目的核心内容。

据介绍,DeepEP 是专为专家混合(MoE)和专家并行(EP) 设计的通信库,提供高吞吐、低延迟的全对全(all-to-all)GPU 计算核,也被称为 MoE dispatch 和 MoE combine。

此外,该库还支持包括 FP8 在内的低精度计算操作。

说人话就是,DeepEP 是 MoE 模型的「通信管家」,通过软硬件协同优化,让专家之间的数据传递又快又省资源,大幅提升训练和推理效率。

另外,DeepEP 为支持 DeepSeek-V3 论文中的组限门控(group-limited gating) 算法,开发了专门的计算模块,这些模块能够高效处理不同网络连接之间的数据传输,比如从 GPU 之间的 NVLink 连接传输到服务器之间的 RDMA 连接。

DeepEP 提供了两种主要类型的计算模块。

一种是高吞吐量模块,它们在训练和推理预填充阶段表现出色,并且可以灵活调整 GPU 处理器资源;另一种是专为推理解码阶段设计的低延迟模块,完全基于 RDMA 技术,能够最大限度减少响应时间。

DeepEP 性能如何?

具有 NVLink 和 RDMA forwarding 的常规模块

DeepSeek 在 H800 上测试常规内核(NVLink 最大带宽约 160 GB/s),每个 H800 连接到一个 CX7 InfiniBand 400 Gb/s RDMA 网卡(最大带宽约 50 GB/s)。他们遵循 DeepSeek-V3/R1 预训练设置(每批次 4096 个 token,7168 隐藏维度,top-4 组,top-8 专家,FP8 分发和 BF16 合并)。

图片

具有纯 RDMA 的低延迟模块

DeepSeek 在 H800 上测试低延迟模块,每个 H800 连接到一个 CX7 InfiniBand 400 Gb/s RDMA 网卡(最大带宽约 50 GB/s)。他们遵循典型的 DeepSeek-V3/R1 生产设置(每批次 128 个 token,7168 隐藏维度,top-8 专家,FP8 分发和 BF16 合并)。

图片

项目地址:https://github.com/deepseek-ai/DeepEP

图片一起“三连

内容中包含的图片若涉及版权问题,请及时与我们联系删除