Arctic Long Sequence Training: Scalable And Efficient Training For Multi-Million Token Sequences

2025年06月16日
  • 简介
    长序列对于诸如RAG、长文档摘要生成、多模态处理等应用至关重要,而现代大语言模型(LLM),例如Llama 4 Scout,能够支持高达1000万标记的最大序列长度。然而,在企业实验室之外,由于开源领域系统支持有限,长序列训练对AI社区来说仍是一个挑战。 开箱即用的情况下,即使在现代NVIDIA H100 80GB GPU集群上,使用基础的Hugging Face(HF)模型对Llama 8B模型进行超过32K序列长度的训练也会因内存不足而失败,原因主要有两点:i) LLM训练任务未能充分优化以充分利用单个GPU的内存;ii) 现有的利用多GPU内存的解决方案难以直接应用于HF模型,从而导致长序列训练变得不可行。 为了解决这一问题,我们提出了Arctic Long Sequence Training(ALST)。它提供了一种与注意力机制无关的单GPU和多GPU内存优化组合方案,能够支持多种HF模型的开箱即用的百万级别序列长度训练。 ALST能够在单个H100 GPU上支持Meta的Llama 8B模型进行50万序列长度的训练,在单个8xH100 GPU节点上支持370万序列长度的训练,并在由4个节点组成的集群上支持超过1500万序列长度的训练,相较于32K的基准提升了超过400倍。ALST完全兼容HF模型,并通过Deepspeed开源(https://www.deepspeed.ai/tutorials/ulysses-alst-sequence-pallellism/),同时也可通过Arctic Training获取(https://github.com/snowflakedb/ArcticTraining/blob/main/projects/sequence-parallelism/README.md)。
  • 图表
  • 解决问题
    该论文试图解决长序列训练在资源受限环境下的挑战,特别是对于开源社区和非企业级实验室而言,如何在现代硬件上高效支持百万级别甚至更高的序列长度训练。这是一个具有实际意义但尚未被充分解决的问题。
  • 关键思路
    论文提出了一种名为Arctic Long Sequence Training (ALST) 的技术框架,结合了单GPU和多GPU的内存优化策略,使得Hugging Face模型能够支持超长序列(如数百万token)的训练。与现有方法相比,ALST通过优化内存使用和跨节点协作,显著提升了可处理的序列长度(超过400倍提升)。
  • 其它亮点
    1. ALST能够在单个H100 GPU上支持50万token序列,在8xH100节点上支持370万token,在4节点集群上支持超过1500万token;2. 完全兼容Hugging Face模型,并已开源至Deepspeed和Arctic Training项目;3. 提供了详细的实验设计,包括不同硬件配置下的性能对比;4. 开源代码便于社区复现和进一步研究,为长序列任务(如RAG、文档摘要等)提供了强大的工具支持。
  • 相关研究
    近期相关工作包括:1. DeepSpeed的Ulysses框架,专注于长序列并行化;2. NVIDIA的NeMo Megatron,提供大规模模型训练支持;3. Google的T5-XXL系列研究,探索超长上下文生成能力;4. Meta的Llama系列研究,不断优化大语言模型的效率与能力。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论