Improving Transformers with Dynamically Composable Multi-Head Attention

2024年05月14日
  • 简介
    多头注意力(MHA)是Transformer的关键组成部分。在MHA中,注意力头独立工作,导致注意力得分矩阵的低秩瓶颈和头部冗余等问题。我们提出了动态可组合多头注意力(DCMHA),这是一种参数和计算效率高的注意力架构,可以解决MHA的缺点,并通过动态组合注意力头来增强模型的表达能力。DCMHA的核心是一个$\it{Compose}$函数,以输入相关的方式变换注意力得分和权重矩阵。DCMHA可以作为任何Transformer架构中MHA的替代品,以获得相应的DCFormer。在语言建模方面,DCFormer在不同的架构和模型规模上显著优于Transformer,与计算量为1.7倍至2.0倍的模型性能相当。例如,DCPythia-6.9B在预训练困惑度和下游任务评估方面均优于开源Pythia-12B。代码和模型可在https://github.com/Caiyun-AI/DCFormer获取。
  • 图表
  • 解决问题
    论文旨在解决Transformer中Multi-Head Attention的问题,如低秩瓶颈和头部冗余,提高模型表达能力。
  • 关键思路
    提出Dynamically Composable Multi-Head Attention (DCMHA)架构,通过动态组合注意力头解决MHA的问题。
  • 其它亮点
    DCMHA可以作为MHA的替代品,显著提高了语言建模的性能,且模型规模较小,计算效率更高。DCPythia-6.9B在预训练和下游任务评估方面均优于开源Pythia-12B。
  • 相关研究
    与该论文相关的研究包括Transformer及其改进版本,如Linformer、Performer等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论