- 简介Transformer模型在各种序列处理任务中表现出色,但自注意力机制的计算成本限制了它在长序列中的实用性。虽然存在改进计算效率的现有注意力变体,但基于它们的手工混合策略,它们在有效抽象全局信息方面的能力受到限制。另一方面,状态空间模型(SSM)专为长序列设计,但无法捕捉复杂的局部信息。因此,将它们组合作为统一的令牌混合器是最近长序列模型的趋势。然而,即使配备了SSM,线性化注意力也会显著降低性能。为了解决这个问题,我们提出了一种名为LongVQ的新方法。LongVQ使用向量量化(VQ)技术将全局抽象压缩为长度固定的码本,从而实现了注意力矩阵的线性时间计算。这种技术有效地维护动态的全局和局部模式,有助于弥补长距离依赖问题的缺陷。我们在“长距离竞技场”基准测试、自回归语言建模以及图像和语音分类方面进行了实验,证明了LongVQ的有效性。我们的模型在包括Transformer变体、卷积和最近的状态空间模型在内的其他序列模型上取得了显著的改进。
- 图表
- 解决问题论文提出了一种名为LongVQ的新方法,旨在解决长序列处理中自注意力机制的计算成本限制问题,同时保持全局和局部信息的动态性。
- 关键思路LongVQ使用向量量化技术将全局抽象压缩为长度固定的码本,从而实现了注意力矩阵的线性时间计算。这种技术有效地保持了动态全局和局部模式,有助于补充长程依赖问题的缺失。
- 其它亮点论文在Long Range Arena基准测试、自回归语言建模以及图像和语音分类等任务上进行了实验,证明了LongVQ的有效性。该模型在包括变种Transformer、卷积和最近的状态空间模型在内的其他序列模型上实现了显著的改进。
- 近期的相关研究包括:《Attention Is All You Need》、《Longformer: The Long-Document Transformer》、《Reformer: The Efficient Transformer》等。
沙发等你来抢
去评论
评论
沙发等你来抢