随着视觉Transformer(ViTs)成为标准的视觉骨干网络,对其计算现象进行机制性解释变得至关重要。尽管其架构暗示了某种动态结构的存在,但目前尚无统一框架能将Transformer的深度解读为一种清晰刻画的信息流过程。在本文中,我们提出了“模块循环假说”(Block-Recurrent Hypothesis, BRH),认为训练后的ViT具备一种模块化的循环深度结构,即原本由 $L$ 个模块完成的计算可以被精确地重写为仅使用 $k \ll L$ 个不同模块反复调用的形式。在多种不同的ViT模型中,层间表征相似性矩阵表明,网络深度方向上存在数量较少的连续阶段。为了验证这些阶段是否确实反映了可重复使用的计算模式,我们训练了预训练ViT的循环式替代模型——“对相位结构Transformer的循环近似”(Raptor)。在小规模实验中,我们证明随机深度和训练过程会促进循环结构的形成,并且这种结构的强弱与我们能否准确拟合Raptor模型密切相关。接着,我们通过实证方式验证了BRH的存在性:仅用2个模块构建的Raptor模型,在相当的计算成本下恢复了DINOv2 ImageNet-1k线性探针准确率的96%。最后,我们基于该假说发展了一套动力学可解释性研究方案。我们发现:i)表征在前向传播过程中沿特定方向收敛至类别依赖的角度吸引盆地,并在受到微小扰动时表现出自我纠正的轨迹;ii)不同token具有特定的动力学行为,其中[cls] token在后期发生急剧的方向重定向,而图像块token则在后期强烈地向其平均方向保持一致性;iii)在网络深层阶段,更新逐渐退化为低秩形式,这与系统向低维吸引子收敛的现象一致。综上所述,我们在ViT的深度方向上发现了一种紧凑的循环计算程序,揭示了一种低复杂度的规范性解,使得这些模型能够通过严谨的动力系统分析方法加以研究。