- 简介我们提出了虚拟宽度网络(Virtual Width Networks, VWN),这是一种在不增加隐藏层维度所带来的二次计算开销的前提下,获得更宽表示优势的框架。VWN 将表示宽度与主干网络宽度解耦,在扩展嵌入空间的同时,几乎保持主干网络的计算量不变。在大规模实验中,8 倍的扩展规模使下一项预测的优化速度提升两倍以上,下两项预测的优化速度提升达三倍。随着训练进行,这一优势持续增强:损失差距不断扩大,收敛加速比也逐步提高,表明 VWN 不仅在处理 token 时更高效,而且在更大规模下效果愈发显著。此外,我们发现虚拟宽度与损失降低之间存在近似对数线性的缩放关系,这为将虚拟宽度缩放探索为提升大模型效率的新维度提供了初步的实证依据和研究动力。
-
- 图表
- 解决问题论文试图解决深度神经网络中表示宽度(representational width)增加带来的计算成本急剧上升的问题,尤其是隐藏层维度扩展导致的二次方计算开销。传统方法通过增加模型宽度来提升表示能力,但代价高昂。该问题在大规模语言建模中尤为突出,影响训练效率和可扩展性。虽然宽度扩展的重要性已被广泛认识,但如何在不显著增加计算负担的前提下实现更宽的表示,仍是一个具有挑战性的优化方向。
- 关键思路提出Virtual Width Networks(VWN),其核心思想是将表示宽度与骨干网络(backbone)的宽度解耦:通过扩展嵌入空间(embedding space)来获得更丰富的表示能力,同时保持骨干网络的参数和计算量基本不变。这种“虚拟增宽”避免了传统加宽带来的参数和FLOPs的二次增长,实现了高效的信息表达与优化加速。相比现有方法,VWN不是直接扩大模型宽度,而是引入一种结构上的分离设计,在不改变主干计算图的情况下提升模型容量,是一种新颖的效率优化范式。
- 其它亮点在大规模实验中,8倍虚拟宽度扩展使next-token预测优化速度提升2倍以上,next-2-token预测提速达3倍;且随着训练进行,损失差距扩大、收敛加速比提高,显示出VWN随训练进程愈发有效。作者还发现虚拟宽度与损失下降之间存在近似对数线性关系,为未来探索虚拟宽度作为大模型效率的新缩放维度提供了实证基础。实验验证了其在标准语言建模任务中的有效性,强调了其token效率和可扩展性优势。目前未提及是否开源代码,但所揭示的缩放规律值得进一步研究,尤其是在不同架构(如Transformer)、不同任务(如翻译、摘要)中的泛化能力。
- 1. Scaling Language Models with Mixture of Experts 2. EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks 3. Training Compute-Optimal Large Language Models (Chinchilla) 4. Designing Network Design Spaces (ResNeXt) 5. Wide Residual Networks
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流