- 简介为了减少Transformer的计算负担,线性注意力的研究已经获得了显著的动力。然而,注意力机制的改进策略通常需要大量的重新训练,这对于具有大量参数的大型语言模型来说是不切实际的。本文提出了DiJiang,一种新颖的频域核方法,可以将预训练的普通Transformer转化为具有很少训练成本的线性复杂度模型。通过采用加权准蒙特卡罗方法进行采样,所提出的方法在理论上具有更高的逼近效率。为了进一步降低训练计算复杂度,我们的核方法基于离散余弦变换(DCT)操作。大量实验证明,所提出的方法实现了与原始Transformer相当的性能,但训练成本显著降低,推理速度更快。我们的DiJiang-7B在各种基准测试中实现了与LLaMA2-7B相当的性能,但仅需要约1/50的训练成本。代码可在https://github.com/YuchuanTian/DiJiang获得。
- 解决问题本文旨在通过提出DiJiang这一新方法,将预训练的Transformer转换为具有线性复杂度的模型,以降低计算负担。同时,该方法还旨在减少训练成本,以便在大型语言模型中实现。
- 关键思路DiJiang是一种基于频域核技术的方法,通过离散余弦变换(DCT)操作实现核化,从而将预训练的Transformer转换为具有线性复杂度的模型。该方法使用加权的准蒙特卡罗方法进行采样,理论上可以提供更高的逼近效率。
- 其它亮点本文的方法可以将预训练的Transformer转换为具有线性复杂度的模型,并且可以在减少训练成本的情况下实现。实验结果表明,DiJiang方法可以在各种基准测试中实现与原始Transformer相当的性能,但训练成本和推理速度都得到了显着提高。作者还提供了代码。
- 近期的相关研究包括:《Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention》、《Linformer: Self-Attention with Linear Complexity》等。
沙发等你来抢
去评论
评论
沙发等你来抢