Unveiling the Hidden Structure of Self-Attention via Kernel Principal Component Analysis

简介

transformer 在序列建模任务上的显著成功，涵盖了自然语言处理和计算机视觉中的各种应用，这要归功于自我注意力的关键作用。与大多数深度学习模型的发展类似，这些注意力机制的构建依赖于启发式和经验。在我们的工作中，我们从核主成分分析（kernel PCA）中推导出自我注意力，并展示了自我注意力将其查询向量投影到其特征空间中的关键矩阵的主成分轴上。然后，我们在理论和实证上制定了自我注意力中值矩阵的确切公式，证明了该值矩阵捕捉了自我注意力中关键向量的 Gram 矩阵的特征向量。利用我们的 kernel PCA 框架，我们提出了一种新的鲁棒注意力类别，即具有鲁棒主成分的注意力（RPC-Attention），它对数据污染具有弹性。我们在 ImageNet-1K 对象分类、WikiText-103 语言建模和 ADE20K 图像分割任务上实证地展示了 RPC-Attention 相对于 softmax 注意力的优势。
图表
解决问题

本论文旨在从核主成分分析（kernel PCA）中推导出自注意力机制，并展示其在自注意力中的应用。同时，论文提出了一种新型的鲁棒自注意力机制，用于解决数据污染的问题。
关键思路

论文的关键思路是将自注意力的查询向量投影到其键矩阵的主成分轴上，同时提出了一个精确的公式来计算自注意力中的值矩阵，该矩阵捕捉了键向量的Gram矩阵的特征向量。通过这种基于核PCA的框架，提出了RPC-Attention，一种新型的鲁棒自注意力机制。
其它亮点

论文在ImageNet-1K目标分类、WikiText-103语言建模和ADE20K图像分割任务上，实验证明了RPC-Attention相对于softmax attention的优势。此外，论文还开源了代码并提供了实验细节。
相关研究

最近在这个领域中，也有一些类似的研究，例如《Attention Is All You Need》、《Generating High-Quality and Informative Conversation Responses with Sequence-to-Sequence Models》等。

Unveiling the Hidden Structure of Self-Attention via Kernel Principal Component Analysis

评论