Two-Scale Latent Dynamics for Recurrent-Depth Transformers

2025年09月27日
  • 简介
    循环深度变换器(recurrent-depth transformers)通过在生成标记前反复迭代潜在计算,从而扩展测试时的计算量。我们研究了这些迭代过程的几何特性,并提出一个简单而清晰的“双尺度”操作图景:(i)在同一个循环模块内部,更新操作表现为“小尺度的精细调整”;(ii)而在连续的不同模块之间,状态则经历一种“大尺度的漂移”。我们的测量结果表明,随着检查点的推进,循环中的步长变得越来越“小”,且各步之间的方向趋于“更加正交”,这说明模型正在更精细地局部建模结构细节,而非单纯沿某一固定方向推进。这些动态特性启发我们设计了一种基于模型步长二阶差分的提前退出机制,与Geiping等人提出的KL散度退出策略及其简单的首阶版本相比,该机制在性能、稳定性和时间效率方面均表现出更优的效果。
  • 作者讲解
  • 图表
  • 解决问题
    论文探讨了在推理时通过重复迭代潜在计算来扩展计算资源的循环深度Transformer(Recurrent-depth Transformers)的行为。主要问题是:这些模型在多次迭代中如何演化其内部状态?是否可以通过更高效的方式判断何时终止迭代以生成输出,从而提升性能和效率?这是一个相对较新的问题,尤其在测试时动态调整计算路径的方向上尚未被充分探索。
  • 关键思路
    提出一个两尺度操作视角:(i) 在同一个循环块内,更新是小尺度的精细化调整;(ii) 跨不同块之间,状态发生大尺度漂移。基于此,作者观察到迭代步长逐渐变小且趋向正交,表明模型在局部精细建模而非单向推进。由此提出一种基于二阶差分(step-size的二阶变化)的早退机制,优于基于KL散度或一阶梯度的退出策略。这一思路新颖地将几何分析引入循环Transformer的推理动态,并据此设计更稳定的退出判据。
  • 其它亮点
    实验在多个检查点上测量了迭代过程中的状态变化几何特性,验证了正交性和步长衰减现象。提出的二阶早退机制在性能、稳定性和时间效率上均优于Geiping等人提出的KL散度方法及其一阶版本。实验设计严谨,包含对不同退出策略的对比分析。虽然文中未明确提及开源代码,但该工作为后续研究提供了可复现的理论框架与指标设计,值得进一步探索其在其他自回归模型中的应用。
  • 相关研究
    1. Efficient Language Models through Dynamic Computation 2. Adaptive Inference with Forward & Backward Policies 3. Blockwise Parallel Decoding with Latent Refinement 4. Test-Time Compute Scaling via Recurrent State Interaction 5. Early Exit Strategies in Transformer Models: A Comparative Study
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问