USP: A Unified Sequence Parallelism Approach for Long Context Generative AI

简介

本文调查了当前最先进的序列并行（SP）方法，即DeepSpeed-Ulysses和Ring-Attention，并提出了一种统一的SP方法，该方法对Transformer模型架构和网络硬件拓扑更加稳健，有助于释放生成式AI模型的长序列能力。本文比较了SP和现有并行方法（包括数据/张量/零/管道并行）的通信和内存成本，并讨论了设计涉及SP的混合4D并行的最佳实践。我们使用SP在两个8xA800节点上，使用长度为208K的序列，对LLAMA3-8B模型进行了训练，实现了47%的MFU。我们的代码公开在https://github.com/feifeibear/long-context-attention。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

该论文旨在探讨序列并行（SP）方法在生成式AI模型中的应用，以解决长上下文能力的问题。
关键思路

论文提出了一种统一的SP方法，该方法对于Transformer模型架构和网络硬件拓扑更加稳健。
其它亮点

论文比较了SP和现有的并行方法，包括数据/张量/零/管道并行的通信和内存成本，并讨论了涉及SP的混合4D并行的最佳实践。作者使用LLAMA3-8B数据集进行了实验，并在两个8xA800节点上实现了47％的MFU。作者公开了代码。
相关研究

最近的相关研究包括DeepSpeed-Ulysses和Ring-Attention等SP方法的研究。