Megalodon: Efficient LLM Pretraining and Inference with Unlimited Context Length

简介

Transformers的二次复杂度和弱长度外推限制了它们扩展到长序列的能力，虽然线性注意力和状态空间模型等次二次解决方案存在，但它们在预训练效率和下游任务准确性方面的表现都不如Transformers。我们介绍了Megalodon，这是一种用于无限上下文长度的高效序列建模的神经架构。Megalodon继承了Mega（带有门控注意力的指数移动平均值）的架构，并引入了多个技术组件来提高其能力和稳定性，包括复杂的指数移动平均值（CEMA）、时间步归一化层、归一化注意机制和预先规范化的两跳残差配置。在与Llama2的对比中，Megalodon在规模为70亿参数和2万亿训练标记的情况下比Transformer更加高效。Megalodon的训练损失为1.70，在Llama2-7B（1.75）和13B（1.67）之间。代码：https://github.com/XuezheMax/megalodon。
作者讲解·4
- 讲解视频(1)
- 相关报道(3)
图表
解决问题

解决问题：论文尝试解决Transformer模型在处理长序列时存在的二次复杂度和弱长度外推的问题，提出了一种名为Megalodon的神经架构，旨在实现无限上下文长度的高效序列建模。
关键思路

关键思路：Megalodon继承了Mega（带有门控注意力的指数移动平均值）的架构，并引入了多个技术组件来提高其能力和稳定性，包括复杂的指数移动平均值（CEMA），时间步归一化层，归一化注意机制和预先规范化的两跳残差配置。
其它亮点

其他亮点：论文通过与Llama2的对比实验表明，Megalodon在70亿参数和2万亿训练标记的规模下比Transformer更加高效。此外，论文提供了代码开源。
相关研究

相关研究：最近的相关研究包括Llama2和Transformer-XL等。

Megalodon: Efficient LLM Pretraining and Inference with Unlimited Context Length

提问交流

提问交流