Sliding Window Attention Training for Efficient Large Language Models

2025年02月26日
  • 简介
    最近在基于Transformer的大型语言模型(LLMs)方面的进展已经在各种任务中展示了卓越的能力。然而,这些模型在处理长文档时,由于其与序列长度呈二次关系的计算复杂度,仍然存在显著的瓶颈。因此,许多努力,如稀疏注意力和状态空间模型等方法已经被提出,以提高LLMs在长序列上的效率。尽管这些方法有效,但它们要么牺牲了性能,要么引入了结构复杂性。这促使我们寻求一种既简单又高效的模型,同时保留基本的Transformer架构。为此,我们引入了SWAT,通过滑动窗口注意力训练(Sliding Window Attention Training)实现高效处理长上下文。本文首先将Transformer的低效归因于由softmax操作高方差导致的注意力汇聚现象。然后,我们用sigmoid函数替代softmax,并利用平衡的ALiBi和旋转位置嵌入(Rotary Position Embedding),以实现高效的信息压缩和保留。实验表明,SWAT在八个基准测试中,相较于最先进的线性递归架构,实现了最佳性能。代码可在https://anonymous.4open.science/r/SWAT-attention获取。
  • 图表
  • 解决问题
    该论文旨在解决Transformer模型在处理长文档时遇到的计算复杂度问题,特别是其与序列长度成二次关系的计算复杂度。这限制了模型在处理长文本时的效率和实用性。这是一个已知的问题,但尚未找到完美的解决方案。
  • 关键思路
    论文的关键思路是通过引入SWAT(Sliding Window Attention Training)来改进长上下文处理的效率。具体来说,作者将注意力机制中的softmax替换为sigmoid函数,并结合ALiBi和Rotary Position Embedding进行信息压缩和保留。这种设计既保持了Transformer的基本架构,又解决了注意力池现象带来的低效问题。
  • 其它亮点
    实验表明,SWAT在八个基准测试中达到了SOTA性能,优于现有的线性递归架构。此外,论文开源了代码,使得其他研究者可以复现结果并进一步改进。未来的研究可以探索如何将SWAT应用于更多类型的自然语言处理任务,以及如何优化其参数设置。
  • 相关研究
    最近在这个领域中,相关的研究包括:1. 稀疏注意力机制,如BigBird和Longformer;2. 状态空间模型,如SSM和Performer;3. 线性化注意力机制,如Linear Transformer和Reformer。这些方法都试图解决长序列处理的效率问题,但通常会牺牲一定的性能或增加结构复杂性。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论