爱奇艺 | vGPU 的探索与实践

讨论数:0 点赞分享:2

作者:爱奇艺深度学习平台团队

来源:爱奇艺技术产品团队

随着人工智能技术的发展,爱奇艺内部越来越多的服务使用深度学习模型和技术来驱动,为我们的用户提供更加智能和便捷的在线视频观看体验。

其中在线类的服务,通常单个容器实例需要独占一个 GPU,以实现在毫秒/秒级延时内完成例如视频、图片、语音、文本的深度学习模型推理请求;为了保证响应延时,请求通常单独进行,无法对请求做batch以提升计算效率,且不同请求间隔随机,会导致这些服务的 GPU 计算资源的利用率通常较低、。且在线类服务请求量在一天或者一定时间周期内存在波峰波谷的现象,进一步降低了 GPU 的利用率。鉴于GPU本身高昂的价格,较低的 GPU 利用率浪费了大量计算资源,增加了 AI 服务的成本。
为了更好地适用于爱奇艺内部 AI 容器化应用场景,爱奇艺技术团队重新开发了容器场景下的 GPU 虚拟共享方案,基于CUDA API 截获方式实现显存及算力隔离和分配,并基于开源项目aliyun-gpushare scheduler实现 K8S 上对虚拟 GPU 的调度和分配,实现了多应用容器部署在一张 GPU 卡的目标。
感兴趣的可以继续戳原文。

阅读原文 >

爱奇艺 vGPU 的探索与实践

爱奇艺内部越来越多的服务使用深度学习模型和技术来驱动,会导致这些服务的GPU计算资源的利用率通常较低(如图1所示)。最直接的解决方案是将多个服务部署在同一张GPU卡上,配置成MPS模式的GPU上运行的所有进程,MPS还可配置各个进程对GPU的使用占比。需要使用Nvidia-smi重置GPU的方式才能恢复。我们重新开发了容器场景下的GPU虚拟共享方案,实现了多应用容器部署在一张GPU卡的目标。

类似文章

谷歌工程师万字好文:我们为何追求高性能深度学习?如何实现?
原文:High Performance Deep Learning 作者:Gaurav Menghani(谷歌研究院 | 软件工程师) 译者:青苹果 深度学习技术的突破性进展彰显了其令人难以置信的潜力,提供了让人兴奋的新的 AI 增强软件和系统。 但是,从财政、计算再到环境等几个角度上考虑,训练最强大的模型是极其昂贵的。 提高这些模型的效率会在很多领域产生深远的影响,因此,基于这一需求,未来所开发的模型只会有助于进一步扩大深度学习所提供的范围、适用性和价值。 本文将基于 arxiv 论文 Efficient Deep Learning: A Survey on Making Deep Learning Models Smaller, Faster, and Better,首先展示深度学习领域模型的快速增长,及其在继续扩大规模的阶段激发了对效率和性能的需求。随后将给出一个基本框架,介绍实现高效深度学习的可用工具和技术,并进一步为每个重点领域提供详细的示例,盘点工业界和学术界迄今为止的重要探索。
清华大学朱军:发展安全可靠的AI,为什么依旧任重道远?
8 月 1 日,「青年科学家50²论坛」开幕,数十位院士与知名高校校长、百余名「科学探索奖」获得者与青年科学家在这一天齐聚深圳。 「科学探索奖」是目前国内金额最高的青年科技人才资助计划之一。自 2018 年设立起,「科学探索奖」已经评选出了共 100 位来自各领域的优秀青年科学家,每位均获得由腾讯基金会资助的 300 万元奖金,并且能够自由支配。2020 年第二届「科学探索奖」信息电子领域的获奖者之一、智源学者和清华大学教授朱军在会上发表了主题演讲。 在朱军看来,今天的人工智能远远算不上完美。首先是深度学习仍然面临着鲁棒性差的问题,比如很多手机都会配备人脸识别方案,但通过一副打印了特殊纹理图案的眼镜,就能轻松解锁很多手机;再说到安全需求更高的自动驾驶系统,黑客们只需要在标识牌上加上特定图案,就能让系统将限速标识识别为停止标识,导致致命事故的发生;就连 1750 亿参数的 GPT-3,虽然一贯被誉为全科优秀生,但答起题来也有驴唇不对马嘴的时候…… AI 为什么出错?如何防止 AI 出错?如果不能解决这些问题,那么 AI 就算不上是安全、可靠。 迄今为止,人类对深度神经网络等 AI 算法的出错机制知之甚少。一方面,数据的不确定性是广泛存在的,一旦遇到对抗样本攻击,哪怕是在一张图片中加上少量的噪音,虽然展示效果对人眼没有影响,但足以让人工神经网络产生误判。另一方面,数据中有用信息量的增长没跟上模型体量的增长,就会造成模型的不确定性。 朱军认为,这些问题都会造成「AI 不知道自己不知道」,而贝叶斯方法恰好能提供一种自然、严谨的不确定性计算方法。 贝叶斯与深度学习的结合 对于任何 AI 模型来说,无论开发过程如何,在现实世界中落地的过程一定是极具不确定性的。面对诸多未知,朱军认为用贝叶斯方法建模是一种解决方法。图灵奖得主、贝叶斯之父 Judea Pearl 是朱军一直以来最崇拜的学者之一,而朱军的工作则推动了贝叶斯方法的「深度」变革,将这一方法在人工智能领域的应用发扬光大。 深度学习本身属于机器学习的一端,它会用到大量的训练样本和计算资源,再加上网络结构的人为调整,在特定环境、特定数据集上得到非常高的准确度。另外一端则是贝叶斯的学习方法,贝叶斯程序可以用少量的训练样本学习非常精确的模型,在数据的利用上更高效,而且对抗鲁棒性好、可解释性强。 这种结合贝叶斯方法和深度学习各自优势的研究方向被称为贝叶斯深度学习(Bayesian Deep Learning /BDL),它包括传统的贝叶斯方法、以概率推断(probabilistic inference)为主的深度学习方法,以及二者的交叉,因此它既有贝叶斯本身的可解释性,可以从少量数据中学习,又有深度学习强大的拟合能力。 近年来,朱军重点关注对抗攻击鲁棒性以及不完全信息下的决策问题,在探索的过程中,仍有三个问题要解决: 如何融合二者的互补优点,发展统一的概率模型框架? 如何应对高度非线性变换,发展高效准确的推断算法? 如何自动 / 半自动地对模型进行可微分的概率编程? 从 2014 年起,机器学习界开始进行一些探索,朱军团队开发的「珠算」是最早的深度概率编程库之一。和现有的主要为监督式任务设计的深度学习库不同,珠算的特点是其在很大程度上根基于贝叶斯推理,因此支持各种生成模型:既包括传统的分层贝叶斯模型,也有最近的深度生成模型。 2017 年 5 月,朱军团队正式开源了「珠算」,研究者可以利用珠算强大的拟合能力和多 GPU 训练进行深度学习,同时可以用概率模型为复杂世界建模,开发无标注数据,根据贝叶斯推断的原则处理不确定性。「珠算」是首个与 TensorFlow 无缝衔接的概率编程库,全面支持 MindSpore、飞桨、Jittor、OneFlow 等国产平台。 目前,珠算已经支持变分和蒙特卡洛两大类的方法,包括了现在最主流的推理算法。珠算里也有很多已经实现的模型,比如像比较经典的 topic model、矩阵分解、贝叶斯高斯过程、卷积操作等等。新版本的珠算平台还加入了更多的模型实例,主题模型、概率矩阵分解;变分自编码器、贝叶斯神经网络、深度信念网络以及高斯过程。开发者和研究者们可以在珠算平台上使用已有的实现模型,并在此基础上开发新的模型。 朱军总结说,安全可靠的人工智能还需要从技术上进行突破,但也需要关注数据安全、系统安全。要想打造负责任的人工智能技术和应用,仍需群策群力和产学研用的深度合作。
Facebook、MIT等联合发表451页手稿:用「第一性原理」解释DNN
蒸汽机推动了工业革命的发生,并改变了制造业。然而,直到热力学定律和统计力学原理的发展,科学家们才能够在理论层面完全解释蒸汽机的工作原理。 今天的人工智能也处于类似的关头。DNN(深度神经网络)是现代 AI 研究的重要组成部分,但它们的实现方式或多或少被视为「黑匣子」。虽然人工智能从业者对 DNN 的理解取得了实质性进展,但 DNN 通常被认为太复杂而无法从基本原理来理解。模型主要通过反复试错进行微调——虽然试错可以智能地进行,通常是根据多年的经验,但它是在没有任何统一的理论语言来描述 DNN 及其功能的情况下进行的。 近日,来自 Facebook 人工智能研究中心(FAIR)的科学家 Sho Yaida,麻省理工学院理论物理中心的研究员、Salesforce 的首席研究员 Dan Roberts 和普林斯顿的 Boris Hanin 合作,撰写了一本关于如何从「第一性原理」来理解 DNN 的书籍《The Principles of Deep Learning Theory: An Effective Theory Approach to Understanding Neural Networks》。该书将于 2022 年初由剑桥大学出版社出版,手稿现在已经公开。 书籍地址:https://arxiv.org/pdf/2106.10165.pdf Facebook VP 兼首席 AI 科学家 Yann LeCun 也在推特上推荐该书,并表示「在科学技术发展史上,工程相关的往往排在第一位:望远镜、蒸汽机、数字通信。解释其功能和局限性的理论往往出现得较晚:折射定律、热力学和信息理论。」「随着深度学习的出现,人工智能驱动的工程奇迹已经进入我们的生活——但我们对深度学习的力量和局限性的理论理解仍然是片面的。这是最早致力于深度学习理论的书籍之一,并以连贯的方式列出了近期理论方法和结果。」

请填写删除理由

确认 取消

确认是否删除?

确认 取消