- 简介随着视觉Transformer(ViTs)成为标准的视觉骨干网络,对其计算现象进行机制性解释变得至关重要。尽管其架构暗示了某种动态结构的存在,但目前尚无统一框架能将Transformer的深度解读为一种清晰刻画的信息流过程。在本文中,我们提出了“模块循环假说”(Block-Recurrent Hypothesis, BRH),认为训练后的ViT具备一种模块化的循环深度结构,即原本由 $L$ 个模块完成的计算可以被精确地重写为仅使用 $k \ll L$ 个不同模块反复调用的形式。在多种不同的ViT模型中,层间表征相似性矩阵表明,网络深度方向上存在数量较少的连续阶段。为了验证这些阶段是否确实反映了可重复使用的计算模式,我们训练了预训练ViT的循环式替代模型——“对相位结构Transformer的循环近似”(Raptor)。在小规模实验中,我们证明随机深度和训练过程会促进循环结构的形成,并且这种结构的强弱与我们能否准确拟合Raptor模型密切相关。接着,我们通过实证方式验证了BRH的存在性:仅用2个模块构建的Raptor模型,在相当的计算成本下恢复了DINOv2 ImageNet-1k线性探针准确率的96%。最后,我们基于该假说发展了一套动力学可解释性研究方案。我们发现:i)表征在前向传播过程中沿特定方向收敛至类别依赖的角度吸引盆地,并在受到微小扰动时表现出自我纠正的轨迹;ii)不同token具有特定的动力学行为,其中[cls] token在后期发生急剧的方向重定向,而图像块token则在后期强烈地向其平均方向保持一致性;iii)在网络深层阶段,更新逐渐退化为低秩形式,这与系统向低维吸引子收敛的现象一致。综上所述,我们在ViT的深度方向上发现了一种紧凑的循环计算程序,揭示了一种低复杂度的规范性解,使得这些模型能够通过严谨的动力系统分析方法加以研究。
-
- 图表
- 解决问题Vision Transformers (ViTs) 虽然已成为主流的视觉骨干网络,但其深度结构中的计算机制尚不清晰,缺乏对模型深度如何逐步处理信息的系统性、动力学层面的理解。本文试图验证一个假设:ViT 的深层结构并非每层独立计算,而是存在可重复利用的计算模块,即是否存在一种低复杂度的、块循环的动力学结构贯穿整个网络深度。这是一个尚未被充分探索的新问题,尤其在从动力学系统视角理解 ViTs 方面仍属前沿。
- 关键思路提出“块循环假设”(Block-Recurrent Hypothesis, BRH),认为训练后的 ViT 可以用远少于总层数 L 的 k 个基本块(k << L)通过循环重复使用来近似原始模型的行为。为此引入 Raptor 模型——一种将预训练 ViT 近似为块循环结构的代理模型,并证明这种紧凑的循环结构能保留绝大部分性能(如线性探针准确率),从而揭示 ViT 深度中存在可复用、阶段化的计算流程。相比现有研究仅关注注意力模式或表示相似性,该工作首次从可学习性与动力学演化角度形式化并验证了循环结构的存在。
- 其它亮点作者基于层间表示相似性观察到 ViT 存在少数连续阶段,支持 BRH;设计实验表明随机深度训练有助于形成更易循环化的结构;成功构建 Raptor 模型,在仅 2 个块的情况下恢复 DINOv2 96% 的 ImageNet-1k 线性探针精度,且计算成本相当;进一步开展“动力学可解释性”分析,发现类别依赖的角度吸引子、cls token 的晚期重定向行为、patch token 的方向一致性以及晚期低秩更新等现象,暗示向低维吸引子收敛的动力学机制。实验主要基于 DINOv2 等自监督 ViT 模型和 ImageNet-1k 数据集,未明确提及代码是否开源。值得深入的方向包括:将 Raptor 用于模型压缩与高效推理、建立 ViT 动力学形式理论、探索吸引子结构在泛化与鲁棒性中的作用。
- 1. 'An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale' (ICLR 2021) 2. 'Masked Autoencoders Are Scalable Vision Learners' (CVPR 2022) 3. 'DINO: DETR with Improved DeNoising Anchor Boxes' (ECCV 2022) 4. 'Scaling Up Your Kernels to 3×3: Rethinking Non-Local Neural Networks' (TPAMI 2022) 5. 'Towards Understanding Self-Supervised Learning Dynamics without Contrastive Pairs' (NeurIPS 2023) 6. 'Linear Representations in Transformer Layers Encode Most Information' (ICML 2023) 7. 'Probing the Behavioral and Conceptual Structure of Vision Transformers' (CVPR 2024)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流