- 简介多头注意力(MHA)是Transformer的关键组成部分。在MHA中,注意力头独立工作,导致注意力得分矩阵的低秩瓶颈和头部冗余等问题。我们提出了动态可组合多头注意力(DCMHA),这是一种参数和计算效率高的注意力架构,可以解决MHA的缺点,并通过动态组合注意力头来增强模型的表达能力。DCMHA的核心是一个$\it{Compose}$函数,以输入相关的方式变换注意力得分和权重矩阵。DCMHA可以作为任何Transformer架构中MHA的替代品,以获得相应的DCFormer。在语言建模方面,DCFormer在不同的架构和模型规模上显著优于Transformer,与计算量为1.7倍至2.0倍的模型性能相当。例如,DCPythia-6.9B在预训练困惑度和下游任务评估方面均优于开源Pythia-12B。代码和模型可在https://github.com/Caiyun-AI/DCFormer获取。
- 图表
- 解决问题论文旨在解决Transformer中Multi-Head Attention的问题,如低秩瓶颈和头部冗余,提高模型表达能力。
- 关键思路提出Dynamically Composable Multi-Head Attention (DCMHA)架构,通过动态组合注意力头解决MHA的问题。
- 其它亮点DCMHA可以作为MHA的替代品,显著提高了语言建模的性能,且模型规模较小,计算效率更高。DCPythia-6.9B在预训练和下游任务评估方面均优于开源Pythia-12B。
- 与该论文相关的研究包括Transformer及其改进版本,如Linformer、Performer等。
沙发等你来抢
去评论
评论
沙发等你来抢