Improving Transformers with Dynamically Composable Multi-Head Attention

简介

多头注意力（MHA）是Transformer的关键组成部分。在MHA中，注意力头独立工作，导致注意力得分矩阵的低秩瓶颈和头部冗余等问题。我们提出了动态可组合多头注意力（DCMHA），这是一种参数和计算效率高的注意力架构，可以解决MHA的缺点，并通过动态组合注意力头来增强模型的表达能力。DCMHA的核心是一个$\it{Compose}$函数，以输入相关的方式变换注意力得分和权重矩阵。DCMHA可以作为任何Transformer架构中MHA的替代品，以获得相应的DCFormer。在语言建模方面，DCFormer在不同的架构和模型规模上显著优于Transformer，与计算量为1.7倍至2.0倍的模型性能相当。例如，DCPythia-6.9B在预训练困惑度和下游任务评估方面均优于开源Pythia-12B。代码和模型可在https://github.com/Caiyun-AI/DCFormer获取。
图表
解决问题

论文旨在解决Transformer中Multi-Head Attention的问题，如低秩瓶颈和头部冗余，提高模型表达能力。
关键思路

提出Dynamically Composable Multi-Head Attention (DCMHA)架构，通过动态组合注意力头解决MHA的问题。
其它亮点

DCMHA可以作为MHA的替代品，显著提高了语言建模的性能，且模型规模较小，计算效率更高。DCPythia-6.9B在预训练和下游任务评估方面均优于开源Pythia-12B。
相关研究

与该论文相关的研究包括Transformer及其改进版本，如Linformer、Performer等。