A Unified Sequence Parallelism Approach for Long Context Generative AI

2024年05月13日
  • 简介
    本文研究了序列并行(SP)技术,该技术将输入张量的序列维度分布到多个计算设备中,成为开发生成式AI模型长序列能力的关键。本文调查了最先进的SP方法,即DeepSpeed-Ulysses和Ring-Attention,并提出了一种统一的SP方法,该方法对Transformer模型架构和网络硬件拓扑更加健壮。本文比较了SP和现有并行技术,包括数据/张量/零/专家/流水线并行的通信和内存成本,并讨论了设计涉及SP的混合4D并行的最佳实践。我们在两个8xA800节点上使用SP实现了208K序列长度的LLAMA3-8B模型的86%MFU。我们的代码可在https://github.com/feifeibear/long-context-attention公开获取。
  • 图表
  • 解决问题
    本论文旨在研究序列并行(SP)方法,以解锁生成型AI模型的长序列能力,并提出一种更加稳健的统一SP方法。
  • 关键思路
    本论文提出了一种统一的SP方法,比现有的SP方法更加适用于Transformer模型架构和网络硬件拓扑,并比较了SP和其他并行方法,包括数据/张量/零/专家/流水线并行的通信和内存成本。
  • 其它亮点
    本论文使用LLAMA3-8B模型对两个8xA800节点进行了SP,获得了86%的MFU,代码公开在Github上。
  • 相关研究
    与本论文相关的其他研究包括DeepSpeed-Ulysses和Ring-Attention等SP方法的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论