NEW

Virtual Width Networks

Seed ,

Baisheng Li ,

Banggu Wu ,

Bole Ma ,

Bowen Xiao ,

Chaoyi Zhang ,

Cheng Li ,

Chengyi Wang ,

Chengyin Xu ,

Chi Zhang ,

Chong Hu ,

Daoguang Zan ,

Defa Zhu ,

Dongyu Xu ,

Du Li ,

Faming Wu ,

Fan Xia ,

Ge Zhang ,

Guang Shi ,

Haobin Chen ,

Hongyu Zhu ,

Hongzhi Huang ,

Huan Zhou ,

Huanzhang Dou ,

Jianhui Duan ,

Jianqiao Lu ,

Jianyu Jiang ,

Jiayi Xu ,

Jiecao Chen ,

Jin Chen ,

Jin Ma ,

Jing Su ,

Jingji Chen ,

Jun Wang ,

Jun Yuan ,

Juncai Liu ,

Jundong Zhou ,

Kai Hua ,

Kai Shen ,

Kai Xiang ,

Kaiyuan Chen ,

Kang Liu ,

Ke Shen ,

Liang Xiang ,

Lin Yan ,

Lishu Luo ,

Mengyao Zhang ,

Ming Ding ,

Mofan Zhang ,

Nianning Liang ,

Peng Li ,

Penghao Huang ,

Pengpeng Mu ,

Qi Huang ,

Qianli Ma ,

Qiyang Min ,

Qiying Yu ,

Renming Pang ,

Ru Zhang ,

Shen Yan ,

Shixiong Zhao ,

Shuaishuai Cao ,

Shuang Wu ,

Siyan Chen ,

Siyu Li ,

Siyuan Qiao ,

Tao Sun ,

Tian Xin ,

Tiantian Fan ,

Ting Huang ,

Ting-Han Fan ,

Wei Jia ,

Wenqiang Zhang ,

Wenxuan Liu ,

Xiangzhong Wu ,

Xiaochen Zuo ,

Xiaoying Jia ,

Ximing Yang ,

Xin Liu ,

Xin Yu ,

Xingyan Bin ,

Xintong Hao ,

Xiongcai Luo ,

Xujing Li ,

Xun Zhou ,

Yanghua Peng ,

Yangrui Chen ,

Yi Lin ,

Yichong Leng ,

Yinghao Li ,

Yingshuan Song ,

Yiyuan Ma ,

Yong Shan ,

Yongan Xiang ,

Yonghui Wu ,

Yongtao Zhang ,

Yongzhen Yao ,

Yu Bao ,

Yuehang Yang ,

Yufeng Yuan ,

Yunshui Li ,

Yuqiao Xian ,

Yutao Zeng ,

Yuxuan Wang ,

Zehua Hong ,

Zehua Wang ,

Zengzhi Wang ,

Zeyu Yang ,

Zhengqiang Yin ,

Zhenyi Lu ,

Zhexi Zhang ,

Zhi Chen ,

Zhi Zhang ,

Zhiqi Lin ,

Zihao Huang ,

Zilin Xu ,

Ziyun Wei ,

Zuo Wang

热度 24

2025年11月14日

简介

我们提出了虚拟宽度网络（Virtual Width Networks, VWN），这是一种在不增加隐藏层维度所带来的二次计算开销的前提下，获得更宽表示优势的框架。VWN 将表示宽度与主干网络宽度解耦，在扩展嵌入空间的同时，几乎保持主干网络的计算量不变。在大规模实验中，8 倍的扩展规模使下一项预测的优化速度提升两倍以上，下两项预测的优化速度提升达三倍。随着训练进行，这一优势持续增强：损失差距不断扩大，收敛加速比也逐步提高，表明 VWN 不仅在处理 token 时更高效，而且在更大规模下效果愈发显著。此外，我们发现虚拟宽度与损失降低之间存在近似对数线性的缩放关系，这为将虚拟宽度缩放探索为提升大模型效率的新维度提供了初步的实证依据和研究动力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决深度神经网络中表示宽度（representational width）增加带来的计算成本急剧上升的问题，尤其是隐藏层维度扩展导致的二次方计算开销。传统方法通过增加模型宽度来提升表示能力，但代价高昂。该问题在大规模语言建模中尤为突出，影响训练效率和可扩展性。虽然宽度扩展的重要性已被广泛认识，但如何在不显著增加计算负担的前提下实现更宽的表示，仍是一个具有挑战性的优化方向。
关键思路

提出Virtual Width Networks（VWN），其核心思想是将表示宽度与骨干网络（backbone）的宽度解耦：通过扩展嵌入空间（embedding space）来获得更丰富的表示能力，同时保持骨干网络的参数和计算量基本不变。这种“虚拟增宽”避免了传统加宽带来的参数和FLOPs的二次增长，实现了高效的信息表达与优化加速。相比现有方法，VWN不是直接扩大模型宽度，而是引入一种结构上的分离设计，在不改变主干计算图的情况下提升模型容量，是一种新颖的效率优化范式。
其它亮点

在大规模实验中，8倍虚拟宽度扩展使next-token预测优化速度提升2倍以上，next-2-token预测提速达3倍；且随着训练进行，损失差距扩大、收敛加速比提高，显示出VWN随训练进程愈发有效。作者还发现虚拟宽度与损失下降之间存在近似对数线性关系，为未来探索虚拟宽度作为大模型效率的新缩放维度提供了实证基础。实验验证了其在标准语言建模任务中的有效性，强调了其token效率和可扩展性优势。目前未提及是否开源代码，但所揭示的缩放规律值得进一步研究，尤其是在不同架构（如Transformer）、不同任务（如翻译、摘要）中的泛化能力。
相关研究

1. Scaling Language Models with Mixture of Experts 2. EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks 3. Training Compute-Optimal Large Language Models (Chinchilla) 4. Designing Network Design Spaces (ResNeXt) 5. Wide Residual Networks

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问