Sliding Window Attention Training for Efficient Large Language Models

简介

最近在基于Transformer的大型语言模型（LLMs）方面的进展已经在各种任务中展示了卓越的能力。然而，这些模型在处理长文档时，由于其与序列长度呈二次关系的计算复杂度，仍然存在显著的瓶颈。因此，许多努力，如稀疏注意力和状态空间模型等方法已经被提出，以提高LLMs在长序列上的效率。尽管这些方法有效，但它们要么牺牲了性能，要么引入了结构复杂性。这促使我们寻求一种既简单又高效的模型，同时保留基本的Transformer架构。为此，我们引入了SWAT，通过滑动窗口注意力训练（Sliding Window Attention Training）实现高效处理长上下文。本文首先将Transformer的低效归因于由softmax操作高方差导致的注意力汇聚现象。然后，我们用sigmoid函数替代softmax，并利用平衡的ALiBi和旋转位置嵌入（Rotary Position Embedding），以实现高效的信息压缩和保留。实验表明，SWAT在八个基准测试中，相较于最先进的线性递归架构，实现了最佳性能。代码可在https://anonymous.4open.science/r/SWAT-attention获取。
图表
解决问题

该论文旨在解决Transformer模型在处理长文档时遇到的计算复杂度问题，特别是其与序列长度成二次关系的计算复杂度。这限制了模型在处理长文本时的效率和实用性。这是一个已知的问题，但尚未找到完美的解决方案。
关键思路

论文的关键思路是通过引入SWAT（Sliding Window Attention Training）来改进长上下文处理的效率。具体来说，作者将注意力机制中的softmax替换为sigmoid函数，并结合ALiBi和Rotary Position Embedding进行信息压缩和保留。这种设计既保持了Transformer的基本架构，又解决了注意力池现象带来的低效问题。
其它亮点

实验表明，SWAT在八个基准测试中达到了SOTA性能，优于现有的线性递归架构。此外，论文开源了代码，使得其他研究者可以复现结果并进一步改进。未来的研究可以探索如何将SWAT应用于更多类型的自然语言处理任务，以及如何优化其参数设置。
相关研究

最近在这个领域中，相关的研究包括：1. 稀疏注意力机制，如BigBird和Longformer；2. 状态空间模型，如SSM和Performer；3. 线性化注意力机制，如Linear Transformer和Reformer。这些方法都试图解决长序列处理的效率问题，但通常会牺牲一定的性能或增加结构复杂性。

Sliding Window Attention Training for Efficient Large Language Models

评论