本文首发于知乎 作者:Lyon
本文主要分为两部分:
- 1.各框架分布式简介
- 2.分布式常见问题汇总(踩坑指南)
在各框架分布式简介中,将先从入门的角度介绍各个框架的分布式接口或相关概念以及和单机程序的主要区别、然后在分布式示例部分,通过各个框架github官方仓库中的分布式代码实现(resnet50),简单介绍各框架的分布式训练;最后对分布式深度学习中常见的库如Horovod、Dali做简单的介绍,及安装使用说明。
在分布式常见问题汇总(踩坑指南)中会总结分布式深度学习训练中的常见问题,如:docker及ssh环境问题、nccl多机通信问题等。
这里,安利一下作者本人近期有幸参与的工作:DLPerf项目,一个公平的多框架性能测评项目。本文中的(踩坑)经验大都来源于此。同时,性能测评过程保留了详细的readme、log日志等,大家可以照着readme轻松复现各个框架的分布式训练过程。
感兴趣的可以戳链接阅读原文。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢