- 简介近年来,大语言模型(LLM)的研究在架构上已从编码器-解码器模式迅速转向如今占主导地位的纯解码器模式。然而,这一快速转变缺乏严谨的对比分析,尤其是从模型扩展(scaling)角度的系统性研究,这引发了一种担忧:编码器-解码器模型的潜力可能被低估了。为填补这一空白,我们重新审视了编码器-解码器大语言模型(RedLLM),并引入了来自纯解码器大语言模型(DecLLM)的最新训练方法。我们在不同模型规模(从约1.5亿到约80亿参数)下,对采用前缀语言建模(prefix LM)预训练的RedLLM与采用因果语言建模(causal LM)预训练的DecLLM进行了全面比较。实验使用RedPajama V1数据集(共1.6万亿个token)进行预训练,并采用FLAN数据集进行指令微调。结果表明,RedLLM展现出优异的扩展特性以及出人意料的强大性能。尽管DecLLM在预训练阶段整体上计算效率更高,但RedLLM在扩展性和上下文长度外推能力方面表现相当甚至更优。经过指令微调后,RedLLM在多种下游任务上的表现与DecLLM相当甚至更佳,同时具备显著更高的推理效率。我们希望本研究能激发更多对编码器-解码器大语言模型的重新审视,充分释放其在构建强大且高效的大语言模型方面的潜力。
-
- 图表
- 解决问题论文试图解决当前大语言模型从传统的encoder-decoder架构转向主流的decoder-only架构过程中,缺乏从扩展性(scaling)角度对两类架构进行系统比较的问题。特别是encoder-decoder模型的潜力可能被过早忽视。这是一个尚未被充分研究的重要问题,尤其在大规模训练和推理效率方面。
- 关键思路重新审视并增强encoder-decoder架构的大语言模型(RedLLM),引入decoder-only模型中的最新训练方法(如prefix LM预训练),并在不同规模下与decoder-only模型(DecLLM)进行全面对比。关键创新在于将现代训练技巧迁移到传统架构中,验证其在扩展性、上下文外推和指令微调后的性能表现。
- 其它亮点实验覆盖150M到8B参数规模,使用RedPajama V1(1.6T token)预训练和FLAN指令微调;结果显示RedLLM在扩展规律上表现优异,指令微调后在多个下游任务上达到甚至超过DecLLM性能,同时推理效率显著更高;研究为encoder-decoder架构提供了新的生命力,值得进一步探索其在高效推理和长上下文建模中的应用;代码与模型有望开源(文中未明确,但基于RedPajama和FLAN生态可预期)。
- 1. PaLM: Scaling Language Modeling with Pathways 2. Chinchilla's Law: The Inverse Scaling of Optimal Model Size and Data 3. T5: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer 4. Flan-T5: Scaling Instruction-Finetuned Language Models 5. Llama: Open and Efficient Foundation Language Models 6. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流