- 简介Transformers的二次复杂度和弱长度外推限制了它们扩展到长序列的能力,虽然线性注意力和状态空间模型等次二次解决方案存在,但它们在预训练效率和下游任务准确性方面的表现都不如Transformers。我们介绍了Megalodon,这是一种用于无限上下文长度的高效序列建模的神经架构。Megalodon继承了Mega(带有门控注意力的指数移动平均值)的架构,并引入了多个技术组件来提高其能力和稳定性,包括复杂的指数移动平均值(CEMA)、时间步归一化层、归一化注意机制和预先规范化的两跳残差配置。在与Llama2的对比中,Megalodon在规模为70亿参数和2万亿训练标记的情况下比Transformer更加高效。Megalodon的训练损失为1.70,在Llama2-7B(1.75)和13B(1.67)之间。代码:https://github.com/XuezheMax/megalodon。
- 图表
- 解决问题解决问题:论文尝试解决Transformer模型在处理长序列时存在的二次复杂度和弱长度外推的问题,提出了一种名为Megalodon的神经架构,旨在实现无限上下文长度的高效序列建模。
- 关键思路关键思路:Megalodon继承了Mega(带有门控注意力的指数移动平均值)的架构,并引入了多个技术组件来提高其能力和稳定性,包括复杂的指数移动平均值(CEMA),时间步归一化层,归一化注意机制和预先规范化的两跳残差配置。
- 其它亮点其他亮点:论文通过与Llama2的对比实验表明,Megalodon在70亿参数和2万亿训练标记的规模下比Transformer更加高效。此外,论文提供了代码开源。
- 相关研究:最近的相关研究包括Llama2和Transformer-XL等。


提问交流