- 简介Quantization(Alistarh等人,2017)是一种重要的(随机)压缩技术,在分布式模型训练的每个通信轮中减少传输比特的数量。Suresh等人(2022)引入了相关量化器,并通过分析分布式SGD通信复杂度展示了它们相对于独立量化器的优势。我们利用所提出的相关量化器分析了前沿的分布式非凸优化算法MARINA(Gorbunov等人,2022),并展示了它在通信复杂度方面优于原始的MARINA和Suresh等人(2022)的分布式SGD。我们利用加权Hessian方差(Tyurin等人,2022)显著改进了MARINA的原始分析,而且扩展了MARINA的理论框架,以适应一个更广泛的可能相关和有偏压缩器的范围,从而扩大了该方法的适用性,超越了传统的独立无偏压缩器设置。广泛的实验结果证实了我们的理论发现。
- 图表
- 解决问题本论文旨在通过使用相关量化器来改进分布式模型训练中的通信复杂度,并将其应用于前沿的分布式非凸优化算法MARINA。
- 关键思路通过使用相关量化器来减少通信复杂度,同时改进分布式非凸优化算法MARINA。
- 其它亮点论文使用了相关量化器来改进分布式模型训练中的通信复杂度,并将其应用于前沿的分布式非凸优化算法MARINA。通过使用加权Hessian方差对MARINA进行改进,并扩展其理论框架以适应更广泛的相关和有偏压缩器。实验结果证实了理论发现。
- 最近的相关研究包括Alistarh等人的论文《Quantization》和Suresh等人的论文《Correlated Quantizers Improve Communication Complexity of Distributed SGD》。
沙发等你来抢
去评论
评论
沙发等你来抢