USP: A Unified Sequence Parallelism Approach for Long Context Generative AI

2024年05月13日
  • 简介
    本文调查了当前最先进的序列并行(SP)方法,即DeepSpeed-Ulysses和Ring-Attention,并提出了一种统一的SP方法,该方法对Transformer模型架构和网络硬件拓扑更加稳健,有助于释放生成式AI模型的长序列能力。本文比较了SP和现有并行方法(包括数据/张量/零/管道并行)的通信和内存成本,并讨论了设计涉及SP的混合4D并行的最佳实践。我们使用SP在两个8xA800节点上,使用长度为208K的序列,对LLAMA3-8B模型进行了训练,实现了47%的MFU。我们的代码公开在https://github.com/feifeibear/long-context-attention。
  • 作者讲解
  • 图表
  • 解决问题
    该论文旨在探讨序列并行(SP)方法在生成式AI模型中的应用,以解决长上下文能力的问题。
  • 关键思路
    论文提出了一种统一的SP方法,该方法对于Transformer模型架构和网络硬件拓扑更加稳健。
  • 其它亮点
    论文比较了SP和现有的并行方法,包括数据/张量/零/管道并行的通信和内存成本,并讨论了涉及SP的混合4D并行的最佳实践。作者使用LLAMA3-8B数据集进行了实验,并在两个8xA800节点上实现了47%的MFU。作者公开了代码。
  • 相关研究
    最近的相关研究包括DeepSpeed-Ulysses和Ring-Attention等SP方法的研究。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问