Megalodon: Efficient LLM Pretraining and Inference with Unlimited Context Length

2024年04月12日
  • 简介
    Transformers的二次复杂度和弱长度外推限制了它们扩展到长序列的能力,虽然线性注意力和状态空间模型等次二次解决方案存在,但它们在预训练效率和下游任务准确性方面的表现都不如Transformers。我们介绍了Megalodon,这是一种用于无限上下文长度的高效序列建模的神经架构。Megalodon继承了Mega(带有门控注意力的指数移动平均值)的架构,并引入了多个技术组件来提高其能力和稳定性,包括复杂的指数移动平均值(CEMA)、时间步归一化层、归一化注意机制和预先规范化的两跳残差配置。在与Llama2的对比中,Megalodon在规模为70亿参数和2万亿训练标记的情况下比Transformer更加高效。Megalodon的训练损失为1.70,在Llama2-7B(1.75)和13B(1.67)之间。代码:https://github.com/XuezheMax/megalodon。
  • 图表
  • 解决问题
    解决问题:论文尝试解决Transformer模型在处理长序列时存在的二次复杂度和弱长度外推的问题,提出了一种名为Megalodon的神经架构,旨在实现无限上下文长度的高效序列建模。
  • 关键思路
    关键思路:Megalodon继承了Mega(带有门控注意力的指数移动平均值)的架构,并引入了多个技术组件来提高其能力和稳定性,包括复杂的指数移动平均值(CEMA),时间步归一化层,归一化注意机制和预先规范化的两跳残差配置。
  • 其它亮点
    其他亮点:论文通过与Llama2的对比实验表明,Megalodon在70亿参数和2万亿训练标记的规模下比Transformer更加高效。此外,论文提供了代码开源。
  • 相关研究
    相关研究:最近的相关研究包括Llama2和Transformer-XL等。
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问