- 简介注意力机制是大型语言模型(LLMs)取得显著成就的基本组成部分。然而,我们目前对于注意力机制的理解,尤其是关于如何建立注意力分布的方面仍然有限。受到最近探索初始令牌中注意力汇聚存在的研究的启发,该研究发掘了这一现象。我们旨在更深入地理解LLMs中注意力汇聚的存在,并揭示通过直接优化注意力分布而无需进行权重微调的方式来提高LLMs的可达精度。具体而言,该研究从不同输入和任务的推理中对LLMs中的注意力分布进行了全面的可视化。基于这些可视化,据我们所知,我们是首次发现(1)注意力汇聚不仅发生在序列的开头,而且发生在输入的后续令牌中,以及(2)并非所有的注意力汇聚都对LLMs的可达精度有积极的影响。在我们的发现基础上,我们提出了一种无需训练的Attention Calibration Technique(ACT),可以在推理过程中以适应输入的方式自动优化注意力分布。广泛的实验验证了ACT在不同应用程序中持续提高各种LLMs的准确性。具体而言,当应用于Llama-30B时,ACT在不同数据集上的平均准确率提高了高达7.30%。我们的代码可在https://github.com/GATECH-EIC/ACT上获得。
- 图表
- 解决问题本论文试图深入研究大型语言模型中的注意力机制,特别是注意力分布是如何建立的,发现注意力汇在初始标记中的现象,并提出一种新的方法来优化注意力分布,以提高大型语言模型的准确性。
- 关键思路本论文提出了一种训练-free 的 Attention Calibration Technique (ACT),该方法可以在推理过程中自动地、以输入自适应的方式优化注意力分布,从而提高大型语言模型的准确性。
- 其它亮点本论文发现,注意力汇不仅出现在序列的开头,还出现在后面的标记中,并且不是所有的注意力汇都对大型语言模型的准确性有积极的影响。本论文的 Attention Calibration Technique (ACT) 可以显著提高各种大型语言模型在不同应用程序中的准确性,平均提高达到 7.30%。作者提供了开源代码。
- 最近的相关研究包括:'Attention is not Explanation','On the Relationship between Self-Attention and Convolutional Layers','Analyzing Multi-Head Self-Attention: Specialized Heads Do the Heavy Lifting, the Rest Can Be Pruned' 等。
沙发等你来抢
去评论
评论
沙发等你来抢