mHC-lite: You Don't Need 20 Sinkhorn-Knopp Iterations

2026年01月09日
  • 简介
    超连接(HC)通过引入动态残差矩阵来融合多个残差流中的信息,从而推广了残差连接,并加速了深度神经网络的收敛。然而,不受约束的残差矩阵可能损害训练的稳定性。为解决这一问题,DeepSeek提出了流形约束超连接(mHC),该方法通过迭代的Sinkhorn–Knopp(SK)归一化,将这些矩阵近似投影到Birkhoff多面体上。我们发现这种方法存在两个局限性:(i)有限次数的SK迭代无法保证精确的双随机性,导致存在近似误差,该误差可能随着网络深度增加而累积,进而削弱稳定性;(ii)高效的SK实现需要高度定制化的CUDA内核,提高了工程实现门槛并降低了可移植性。受Birkhoff–von Neumann定理的启发,我们提出了mHC-lite,一种简单的重参数化方法,它将双随机矩阵显式地构造为置换矩阵的凸组合。该方法在结构上即保证了严格的双随机性,且仅需使用原生的矩阵运算即可实现。大量实验表明,mHC-lite在性能上达到或超过了mHC,同时在采用简单实现的情况下实现了更高的训练吞吐量,并彻底消除了HC与mHC中均存在的残差不稳定性问题。代码已公开发布于 https://github.com/FFTYYY/mhc-lite。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决Hyper-Connections(HC)中因无约束残差矩阵导致的训练不稳定问题。虽然DeepSeek提出的mHC通过Sinkhorn-Knopp(SK)归一化将残差矩阵投影到Birkhoff多面体上以提升稳定性,但仍存在两个问题:一是有限次SK迭代无法保证严格的双随机性,深层网络中误差累积可能破坏稳定性;二是SK需要定制CUDA内核,工程实现复杂、可移植性差。这是一个在深度神经网络优化与结构设计中日益受到关注的问题,尤其在追求高效稳定训练的场景下具有现实意义。
  • 关键思路
    提出mHC-lite,一种基于Birkhoff-von Neumann定理的新型重参数化方法,显式地将双随机残差矩阵构造为置换矩阵的凸组合。这种方法从结构上保证了矩阵的严格双随机性,无需迭代近似,避免了SK带来的近似误差和工程复杂性。相比现有方法,其核心新意在于用确定性组合替代迭代逼近,在理论保障的同时简化实现。
  • 其它亮点
    实验表明mHC-lite在性能上达到或超过mHC,同时训练吞吐量更高,且彻底消除了HC与mHC中的残差不稳定性。模型仅使用原生矩阵运算即可实现,无需特殊内核,部署友好。作者开源了代码(https://github.com/FFTYYY/mhc-lite),增强了可复现性。未来可探索更高效的置换基选择策略、动态权重学习机制,以及在Transformer等主流架构中的广泛应用。
  • 相关研究
    1. DeepSeek: Scaling Extreme-Scale Convolutions with Manifold-Constrained Hyper-Connections 2. Sinkhorn Distances: Lightspeed Computation of Optimal Transport 3. The Unreasonable Effectiveness of Deep Features as a Perceptual Metric 4. Attention Is All You Need 5. Convex Optimization via Online-to-Batch Reductions and the Birkhoff Polytope
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问