论文核心内容(引自机器之心):
这篇论文聚焦于快速且准确的机器学习训练。尽管生产团队希望能够充分利用超级计算机来加快训练过程,但传统的优化器无法扩展到数千个处理器。该研究设计了一系列基础优化算法,来为深度学习系统实现更强的并行度。这些算法为谷歌、英特尔、腾讯、英伟达等公司的 SOTA 分布式系统提供了支持。 这篇论文的重点是缩小高性能计算(HPC)和机器学习(ML)之间的差距。 2017 年,HPC 和 ML 之间存在着巨大的差距。一方面,功能强大的超级计算机已经出现,每秒可执行 2 × 1017 次浮点运算。但另一方面,我们却无法充分运用此算力的 1% 来训练 SOTA 机器学习模型。原因是超级计算机需要极高的并行度才能达到峰值性能。但是,高度的并行会导致 ML 优化器的收敛性很差。 为了解决这个问题,论文提出了 LARS 优化器、LAMB 优化器以及 CA-SVM 框架,缩小了机器学习与分布式系统之间的差距。 这篇论文的主要贡献是:「在增加并行度的同时,根据需要改动算法,从而通过避免通信来保持效率。」为了做到这一点,研究者需要根据需求改动算法和 / 或超参数,或使用不同的近似解来维持准确率。
尤洋 最近从伯克利毕业,已经入职新加坡国立大学任助理教授,负责AI高性能计算实验室。他本科毕业于中国农业大学,2015年硕士毕业于清华计算机系,排名第一。博士师从James Demmel(以开发了LAPACK著称)。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢