- 简介为了减少Transformer的计算负荷,线性注意力的研究已经获得了显著的动力。然而,注意力机制的改进策略通常需要大量的重新训练,这对于具有大量参数的大型语言模型来说是不切实际的。本文提出了DiJiang,一种新颖的频域核化方法,可以将预训练的普通Transformer转化为具有少量训练成本的线性复杂度模型。通过采用加权准蒙特卡罗方法进行采样,所提出的方法在理论上提供了更高的逼近效率。为了进一步降低训练计算复杂度,我们的核化基于离散余弦变换(DCT)操作。广泛的实验表明,所提出的方法实现了与原始Transformer相当的性能,但训练成本大大降低,推理速度更快。我们的DiJiang-7B在各种基准测试中实现了与LLaMA2-7B相当的性能,但仅需要约1/50的训练成本。代码可在https://github.com/YuchuanTian/DiJiang上获得。
- 图表
- 解决问题本论文旨在通过提出一种新的频域核化方法DiJiang,将预训练的Transformer模型转化为具有线性复杂度的模型,以减少计算负担。同时,该方法还试图降低训练成本和提高近似效率。
- 关键思路该论文的关键思路是使用加权的拟蒙特卡罗采样方法,基于离散余弦变换(DCT)操作进行核化,从而将预训练的Transformer模型转化为具有线性复杂度的模型。这种方法在理论上具有更高的近似效率。
- 其它亮点该论文的实验结果表明,DiJiang方法可以在减少训练成本和提高推理速度的同时,实现与原始Transformer模型相当的性能。 DiJiang-7B在各种基准测试中实现了与LLaMA2-7B相当的性能,但仅需要约1/50的训练成本。此外,该论文提供了开源代码。
- 最近在这个领域中,一些相关的研究包括:《Linformer: Self-Attention with Linear Complexity》、《Fastformer: Additive Attention Can Be All You Need》、《Reformer: The Efficient Transformer》等。
沙发等你来抢
去评论
评论
沙发等你来抢