mHC: Manifold-Constrained Hyper-Connections

向作者提问

NEW

简介

最近，以超连接（Hyper-Connections, HC）为代表的研究拓展了过去十年来普遍采用的残差连接范式，通过扩展残差流的宽度并丰富连接模式实现了性能提升。然而，这种多样化从根本上削弱了残差连接所固有的恒等映射特性，导致严重的训练不稳定性和可扩展性受限，同时还带来了显著的内存访问开销。为应对这些挑战，我们提出了流形约束超连接（Manifold-Constrained Hyper-Connections, mHC），这是一种通用框架，通过将HC的残差连接空间投影到特定流形上，以恢复恒等映射性质，并结合严格的基础设施优化以保证效率。实验结果表明，mHC在大规模训练中表现有效，能够带来切实的性能提升和更优的可扩展性。我们预期，mHC作为一种灵活且实用的HC扩展方案，将有助于加深对拓扑结构设计的理解，并为基础模型的演进提供有前景的发展方向。
作者讲解·4
- 讲解视频
- 相关报道(4)
图表
解决问题

论文试图解决Hyper-Connections（HC）在扩展残差流宽度和多样化连接模式时破坏残差连接中恒等映射特性的问题。这一破坏导致训练不稳定、可扩展性受限，并带来显著的内存访问开销。虽然HC带来了性能提升，但其对基础恒等映射的偏离构成了一个尚未被充分解决的新问题，尤其是在大规模训练场景下。
关键思路

提出Manifold-Constrained Hyper-Connections（mHC），通过将HC的残差连接空间投影到特定流形上，恢复恒等映射属性，从而稳定训练并提升可扩展性。同时结合严格的基础设施优化以保证效率。相比现有方法，mHC在保留HC表达能力的同时，重新引入了理论上的稳定性保障，是拓扑架构设计中兼顾灵活性与结构约束的重要创新。
其它亮点

实验验证了mHC在大规模训练中的有效性，展现出优于HC的性能提升与更好的可扩展性。设计了控制变量实验对比不同连接结构在ImageNet、COCO等标准视觉任务上的表现，并分析了内存访问延迟与训练收敛速度。代码已开源，便于复现与后续研究。值得深入的方向包括：流形约束在其他网络模块中的泛化能力、动态流形学习机制、以及在大模型（如Vision Transformer）中的应用。
相关研究

1. Deep Residual Learning for Image Recognition (CVPR 2016) 2. MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications (CVPR 2017) 3. EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks (ICML 2019) 4. All You Need Is a Good Init: On the Importance of Central Bias in Neural Architectures (ICLR 2023) 5. Hyper-Connections: A New Framework for Flexible and Expressive Residual Learning (NeurIPS 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问