- 简介本文调查了当前最先进的序列并行(SP)方法,即DeepSpeed-Ulysses和Ring-Attention,并提出了一种统一的SP方法,该方法对Transformer模型架构和网络硬件拓扑更加稳健,有助于释放生成式AI模型的长序列能力。本文比较了SP和现有并行方法(包括数据/张量/零/管道并行)的通信和内存成本,并讨论了设计涉及SP的混合4D并行的最佳实践。我们使用SP在两个8xA800节点上,使用长度为208K的序列,对LLAMA3-8B模型进行了训练,实现了47%的MFU。我们的代码公开在https://github.com/feifeibear/long-context-attention。
-
- 图表
- 解决问题该论文旨在探讨序列并行(SP)方法在生成式AI模型中的应用,以解决长上下文能力的问题。
- 关键思路论文提出了一种统一的SP方法,该方法对于Transformer模型架构和网络硬件拓扑更加稳健。
- 其它亮点论文比较了SP和现有的并行方法,包括数据/张量/零/管道并行的通信和内存成本,并讨论了涉及SP的混合4D并行的最佳实践。作者使用LLAMA3-8B数据集进行了实验,并在两个8xA800节点上实现了47%的MFU。作者公开了代码。
- 最近的相关研究包括DeepSpeed-Ulysses和Ring-Attention等SP方法的研究。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流