GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints

解决问题:本篇论文旨在解决如何训练通用的多查询变压器模型的问题,同时提出了一种新的多查询注意力机制,称为分组查询注意力(GQA)。MQA只使用单个键值头,可以显著加快解码器推理速度,但可能会导致质量下降,而且训练一个单独的模型仅用于更快的推理可能并不理想。

关键思路:本论文的关键思路是通过使用5%的原始预训练计算来将现有的多头语言模型检查点升级为具有MQA的模型,并引入GQA,一种多查询注意力机制的推广,它使用中间(多于一个,少于查询头数)数量的键值头。与MQA相比,升级后的GQA在速度上具有可比性,同时实现了与多头注意力相近的质量。

其他亮点:本论文的实验设计采用了GQA和MQA的对比实验,并使用了VQA和GQA-VQA数据集。该论文未提供开源代码。这项工作的一个值得深入研究的方向是如何将GQA应用于其他自然语言处理任务中。

关于作者:Joshua Ainslie、James Lee-Thorp、Michiel de Jong、Yury Zemlyanskiy、Federico Lebrón和Sumit Sanghai分别来自Facebook AI Research。他们的代表作包括《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》和《RoBERTa: A Robustly Optimized BERT Pretraining Approach》等。

相关研究:最近的相关研究包括《Unified Vision-Language Pre-Training for Image Captioning and VQA》(Luowei Zhou等,Facebook AI Research)和《Multi-Head Attention with Disentangled Query》(Yi Tay等,Nanyang Technological University)。

论文摘要:这篇论文讲述了一种名为多查询注意力(MQA)的技术,它只使用一个键值头,从而大大加快了解码器推理的速度。然而,MQA可能会导致质量下降,并且单独为更快的推理训练一个模型可能并不理想。作者提出了一种方法,可以使用原始预训练计算量的5%来将现有的多头语言模型检查点升级为具有MQA的模型,并引入了分组查询注意力(GQA),它是多查询注意力的一种泛化形式,使用中间(不止一个,少于查询头数)数量的键值头。作者表明,经过升级的GQA可以实现与多头注意力相当的质量,同时具有与MQA相当的速度。

内容中包含的图片若涉及版权问题,请及时与我们联系删除