本文内容

1.使用 Tensorflow 内部的工具对训练过程进行 profiling,找出训练速度的瓶颈 2.数据并行和模型并行的简介,并基于一个例子分析两者的优劣。 3.不同数据并行方案(parameter server 模式和 allreduce 模式,同步更新和异步更新)的详细介绍和实现,并基于实例给出通信-计算时间比的简单估算。 4.加快训练速度的 trick 以及实现中需要注意的点。 5.FP16 带来的增益

2019.11.6 注: tensorflow 2.0 已出,官方推荐使用 distributed strategy。但本文的实现在 tensorflow 1.X 版本仍然有效。另: pytorch 真香!

内容中包含的图片若涉及版权问题,请及时与我们联系删除