本文以Hamburger (https://github.com/Gsunshine/Enjoy-Hamburger)为出发点,对深度学习中如何建模“全局信息”、“全局信息”如何改善了表示的质量、如何训练以优化算法作为网络结构的隐式模型等话题进行探讨。

Hamburger的原始论文 Is Attention Better Than Matrix Decomposition? 以top 3%的分数被ICLR 2021接收,作者信息如下:

论文链接:https://openreview.net/forum?id=1FvkSpWosOl

一、引言

作为深度学习的基础模块,注意力机制[1][2]在过去的5年中受到了极大的关注。它被认为是在神经网络中提供了全局信息建模。基于注意力机制的Transformer[3]在自然语言处理[4][5]和计算机视觉[6][7]中均取得了令人赞叹的实践成果。研究社区对设计更加高效和强大的注意力机制[8][9][10][11][12][13]充满兴趣,解释注意力机制[14][15][16]也成为一个值得研究的问题。

然而,注意力机制真的如我们预想的一样强大吗?它的有效性来源于哪里呢?我们对它的底层机制仍然所知甚少——研究者打出“Attention is not all you need.”的口号[17],直指纯粹的注意力机制并非像大家认为的那样强大,并将注意力机制与skip connection以及FFN协作视为更加重要的原因。

本文绕开了直接针对现有注意力机制进行结构设计和理论分析。我们假设注意力机制可能不是最优的,可能并不能本质地反映注意力的motivation。因而,我们试图为注意力提供一个“参考坐标”。这个“参考坐标”应当是基于第一性原理设计的,从建模全局信息的角度进行假设并推导得出的。当以实践作为准绳的时候,它至少应与注意力机制旗鼓相当。虽然它与注意力享有共同的motivation,但我们并不断言任何它与注意力的等价性或者借由它解释已有的注意力——只是在一面铜镜中,我们试图看见自己。

简言之,我们找到的“参考坐标”是矩阵分解模型及其优化算法。一个令人印象深刻的观察是,注意力机制并不比20多年前的矩阵分解更优——仅是性能相当,但后者的计算和内存开销更低。

在寻找这个坐标系的过程中,我们发展了一些直觉,用于形式化地刻画注意力机制的“全局信息”建模,进而导出了一种具有一般性的全局信息模块的设计策略。我们将建模全局信息抽象为低秩矩阵恢复的数学模型,将全局信息假设为低秩矩阵,并将求解该类问题的优化算法作为神经网络的结构。当我们解决棘手的梯度和优化问题之后,我们的策略可以设计一系列在实践中有效的模型作为注意力机制的“参考坐标”——汉堡模型,Hamburger。或取其英文谐音,称为憨憨模型,如其中文名的含义,简单且平凡。

简单且平凡的方法可以有强大的性能。轻量化的憨憨模型在注意力机制建模全局信息具有决定作用的语义分割及大规模图像生成中展现出优异的性能,在PASCAL VOC和PASCAL Context获得state-of-the-art的成绩,并在ImageNet规模的图像生成中表现出相对于注意力机制的优势。

汉堡美味,请君一尝。

内容中包含的图片若涉及版权问题,请及时与我们联系删除