SUBLLM: A Novel Efficient Architecture with Token Sequence Subsampling for LLM

简介

虽然大型语言模型（LLMs）在各个领域取得了显著的成功，但训练和推理的效率仍然是一个主要的挑战。为了解决这个问题，我们提出了SUBLLM，即Subsampling-Upsampling-Bypass大型语言模型，这是一种创新的架构，通过整合子采样、上采样和旁路模块来扩展核心的仅解码器框架。子采样模块负责缩短序列，而上采样模块则恢复序列长度，旁路模块增强了收敛性。与LLaMA相比，所提出的SUBLLM在训练和推理速度以及内存使用方面都有显著的提高，同时保持着有竞争力的少样本性能。在训练过程中，SUBLLM每个GPU的速度提高了26％，内存减少了10GB。在推理过程中，它可以将速度提高高达37％，每个GPU的内存减少了1GB。当上下文窗口扩展到8192时，训练和推理速度分别可以提高34％和52％。我们将在发布版本中发布所提出的架构的源代码。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

论文提出了一种名为SUBLLM的架构，旨在解决大规模语言模型训练和推理效率低下的问题。
关键思路

SUBLLM架构包含子采样、上采样和旁路模块，以缩短序列长度、恢复序列长度和提高收敛速度。在保持竞争性的few-shot性能的同时，SUBLLM在训练和推理速度以及内存使用方面均有显著的提升。
其它亮点

论文在不损失性能的情况下，提高了训练速度26%、降低了10GB每个GPU的内存使用；在推理方面，提高了37%的速度，减少了每个GPU 1GB的内存使用。此外，当上下文窗口扩展到8192时，训练和推理速度可以分别提高34%和52%。论文将发布SUBLLM架构的源代码。
相关研究

在大规模语言模型领域，最近的相关研究包括GShard、Turing NLG、Megatron-LM等。

SUBLLM: A Novel Efficient Architecture with Token Sequence Subsampling for LLM

提问交流

提问交流