作者:爱奇艺深度学习平台团队

来源:爱奇艺技术产品团队

随着人工智能技术的发展,爱奇艺内部越来越多的服务使用深度学习模型和技术来驱动,为我们的用户提供更加智能和便捷的在线视频观看体验。

其中在线类的服务,通常单个容器实例需要独占一个 GPU,以实现在毫秒/秒级延时内完成例如视频、图片、语音、文本的深度学习模型推理请求;为了保证响应延时,请求通常单独进行,无法对请求做batch以提升计算效率,且不同请求间隔随机,会导致这些服务的 GPU 计算资源的利用率通常较低、。且在线类服务请求量在一天或者一定时间周期内存在波峰波谷的现象,进一步降低了 GPU 的利用率。鉴于GPU本身高昂的价格,较低的 GPU 利用率浪费了大量计算资源,增加了 AI 服务的成本。
为了更好地适用于爱奇艺内部 AI 容器化应用场景,爱奇艺技术团队重新开发了容器场景下的 GPU 虚拟共享方案,基于CUDA API 截获方式实现显存及算力隔离和分配,并基于开源项目aliyun-gpushare scheduler实现 K8S 上对虚拟 GPU 的调度和分配,实现了多应用容器部署在一张 GPU 卡的目标。
感兴趣的可以继续戳原文。

内容中包含的图片若涉及版权问题,请及时与我们联系删除