mHC-lite: You Don't Need 20 Sinkhorn-Knopp Iterations

向作者提问

NEW

简介

超连接（HC）通过引入动态残差矩阵来融合多个残差流中的信息，从而推广了残差连接，并加速了深度神经网络的收敛。然而，不受约束的残差矩阵可能损害训练的稳定性。为解决这一问题，DeepSeek提出了流形约束超连接（mHC），该方法通过迭代的Sinkhorn–Knopp（SK）归一化，将这些矩阵近似投影到Birkhoff多面体上。我们发现这种方法存在两个局限性：（i）有限次数的SK迭代无法保证精确的双随机性，导致存在近似误差，该误差可能随着网络深度增加而累积，进而削弱稳定性；（ii）高效的SK实现需要高度定制化的CUDA内核，提高了工程实现门槛并降低了可移植性。受Birkhoff–von Neumann定理的启发，我们提出了mHC-lite，一种简单的重参数化方法，它将双随机矩阵显式地构造为置换矩阵的凸组合。该方法在结构上即保证了严格的双随机性，且仅需使用原生的矩阵运算即可实现。大量实验表明，mHC-lite在性能上达到或超过了mHC，同时在采用简单实现的情况下实现了更高的训练吞吐量，并彻底消除了HC与mHC中均存在的残差不稳定性问题。代码已公开发布于 https://github.com/FFTYYY/mhc-lite。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决Hyper-Connections（HC）中因无约束残差矩阵导致的训练不稳定问题。虽然DeepSeek提出的mHC通过Sinkhorn-Knopp（SK）归一化将残差矩阵投影到Birkhoff多面体上以提升稳定性，但仍存在两个问题：一是有限次SK迭代无法保证严格的双随机性，深层网络中误差累积可能破坏稳定性；二是SK需要定制CUDA内核，工程实现复杂、可移植性差。这是一个在深度神经网络优化与结构设计中日益受到关注的问题，尤其在追求高效稳定训练的场景下具有现实意义。
关键思路

提出mHC-lite，一种基于Birkhoff-von Neumann定理的新型重参数化方法，显式地将双随机残差矩阵构造为置换矩阵的凸组合。这种方法从结构上保证了矩阵的严格双随机性，无需迭代近似，避免了SK带来的近似误差和工程复杂性。相比现有方法，其核心新意在于用确定性组合替代迭代逼近，在理论保障的同时简化实现。
其它亮点

实验表明mHC-lite在性能上达到或超过mHC，同时训练吞吐量更高，且彻底消除了HC与mHC中的残差不稳定性。模型仅使用原生矩阵运算即可实现，无需特殊内核，部署友好。作者开源了代码（https://github.com/FFTYYY/mhc-lite），增强了可复现性。未来可探索更高效的置换基选择策略、动态权重学习机制，以及在Transformer等主流架构中的广泛应用。
相关研究

1. DeepSeek: Scaling Extreme-Scale Convolutions with Manifold-Constrained Hyper-Connections 2. Sinkhorn Distances: Lightspeed Computation of Optimal Transport 3. The Unreasonable Effectiveness of Deep Features as a Perceptual Metric 4. Attention Is All You Need 5. Convex Optimization via Online-to-Batch Reductions and the Birkhoff Polytope

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问