针对现实生产环境中具有大量CPU资源而GPU奇缺的现状,并出于充分利用现有Kubernetes的目的,作者基于Uber的Horovod实现了分布式训练框架,并且可以部署在内部Kubernetes平台上,通过CPU scale来实现机器学习模型训练,达到在GPU不足的情况下,通过CPU scale来实现模型训练,降低模型训练时间和提高算法模型验证效率的目标。本文将主要介绍一下整体架构设计,YOLO3的分布式算法实现过程和单机版结果对比。

内容中包含的图片若涉及版权问题,请及时与我们联系删除