- 简介设计一个统一的神经网络,以高效且内在地处理任意长度的序列数据,是序列建模中的核心且具有挑战性的问题。Transformer 的设计选择(如二次复杂度和较弱的长度外推能力)限制了其在长序列上的扩展能力。在本研究中,我们提出了 Gecko,这是一种继承了 Mega 和 Megalodon(带门控注意力的指数移动平均)结构的神经网络架构,并进一步引入了多种技术组件,以增强其捕捉长距离依赖关系的能力,包括时间步衰减归一化、滑动块状注意力机制以及自适应工作记忆。在与 Llama2 和 Megalodon 进行的受控预训练对比实验中,模型规模为 70 亿参数、训练 token 数达 2 万亿,Gecko 展现出更高的效率和更优的长上下文可扩展性。Gecko 达到了 1.68 的训练损失,显著优于 Llama2-7B(1.75)和 Megalodon-7B(1.70),并接近 Llama2-13B(1.67)。值得注意的是,在不依赖任何上下文扩展技术的情况下,Gecko 表现出内在的长上下文处理与信息检索能力,能够稳定地处理长达 400 万 token 的序列,并从比其注意力窗口长 $4\times$ 的上下文中成功检索信息。代码地址:https://github.com/XuezheMax/gecko-llm
-
- 图表
- 解决问题论文试图解决现有Transformer架构在处理长序列时面临的计算复杂度高(如二次方复杂度)和长度外推能力弱的问题。这是一个当前备受关注的重要问题,尤其是在需要处理超长上下文的应用场景中,如何设计高效且可扩展的序列建模架构成为关键挑战。
- 关键思路提出名为Gecko的神经网络架构,继承Mega和Megalodon中的指数移动平均与门控注意力机制,并引入三项关键技术:时间步衰减归一化、滑动块状注意力机制和自适应工作记忆,从而在不依赖外部上下文扩展技术的情况下,原生支持长达数百万token的序列处理。相比传统Transformer,该方法在保持低计算复杂度的同时显著增强了对长距离依赖的建模能力。
- 其它亮点在70亿参数、2万亿token训练规模的受控预训练实验中,Gecko取得了1.68的训练损失,优于Llama2-7B(1.75)和Megalodon-7B(1.70),接近Llama2-13B(1.67)。模型无需任何上下文扩展技术即可稳定处理长达400万token的序列,并能从超过其注意力窗口4倍的上下文中成功检索信息。代码已开源:https://github.com/XuezheMax/gecko-llm,具备很强的可复现性和进一步研究价值。
- 1. Mega: Moving Average with Gated Attention for Sequence Modeling 2. Megalodon: Scaling Up Gated Convolutions for Autoregressive Language Modeling 3. Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context 4. LongNet: Scaling Transformers to 1B Tokens 5. Ring Attention with Blockwise Recurrent Memory
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流