- 简介虽然大型语言模型(LLMs)在各个领域取得了显著的成功,但训练和推理的效率仍然是一个主要的挑战。为了解决这个问题,我们提出了SUBLLM,即Subsampling-Upsampling-Bypass大型语言模型,这是一种创新的架构,通过整合子采样、上采样和旁路模块来扩展核心的仅解码器框架。子采样模块负责缩短序列,而上采样模块则恢复序列长度,旁路模块增强了收敛性。与LLaMA相比,所提出的SUBLLM在训练和推理速度以及内存使用方面都有显著的提高,同时保持着有竞争力的少样本性能。在训练过程中,SUBLLM每个GPU的速度提高了26%,内存减少了10GB。在推理过程中,它可以将速度提高高达37%,每个GPU的内存减少了1GB。当上下文窗口扩展到8192时,训练和推理速度分别可以提高34%和52%。我们将在发布版本中发布所提出的架构的源代码。
-
- 图表
- 解决问题论文提出了一种名为SUBLLM的架构,旨在解决大规模语言模型训练和推理效率低下的问题。
- 关键思路SUBLLM架构包含子采样、上采样和旁路模块,以缩短序列长度、恢复序列长度和提高收敛速度。在保持竞争性的few-shot性能的同时,SUBLLM在训练和推理速度以及内存使用方面均有显著的提升。
- 其它亮点论文在不损失性能的情况下,提高了训练速度26%、降低了10GB每个GPU的内存使用;在推理方面,提高了37%的速度,减少了每个GPU 1GB的内存使用。此外,当上下文窗口扩展到8192时,训练和推理速度可以分别提高34%和52%。论文将发布SUBLLM架构的源代码。
- 在大规模语言模型领域,最近的相关研究包括GShard、Turing NLG、Megatron-LM等。
- 1
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流