MOPAR: A Model Partitioning Framework for Deep Learning Inference Services on Serverless Platforms

简介

本文介绍了一种名为MOPAR的模型分割框架，旨在解决深度学习推理服务在无服务器平台上部署时存在的资源利用率低和成本高的问题。作者发现，由于深度学习模型中存在资源占用率高的操作符和层堆叠，DLISs在无服务器平台上以单个函数部署时，不同层的资源需求差异会妨碍资源利用率的提高和增加成本。为了解决这个问题，MOPAR采用了一种混合方法，将DL模型垂直地划分成多个由相似层组成的片段，以提高资源效率。包含资源占用率高的操作符的片段进一步被划分为多个子片段，以实现并行优化以减少推理延迟。此外，MOPAR还全面采用数据压缩和共享内存技术来抵消片段间通信引入的额外时间。作者在OpenFaaS和AWS Lambda上使用12个不同类别的DL模型对MOPAR的有效性进行了评估。实验结果表明，MOPAR平均可以提高DLISs的资源效率27.62％，同时将推理延迟降低约5.52％。此外，基于Lambda的定价，使用MOPAR可以将DLISs的运行成本降低约2.58倍。
图表
解决问题

本论文旨在解决在无服务器平台上部署深度学习推理服务时，由于不同层的资源需求不同而导致资源利用率低下和成本增加的问题。
关键思路

该论文提出了一种模型分区框架MOPAR，通过将DL模型垂直划分为多个切片并采用数据压缩和共享内存技术来提高资源利用率。同时，对包含资源占主导地位的运算符（RD）的切片进行进一步分区，以减少推理延迟。
其它亮点

论文使用四类12个DL模型在OpenFaaS和AWS Lambda上评估了MOPAR的效果，结果表明，MOPAR平均可以提高27.62％的DLIS资源利用率，同时将推理延迟降低约5.52％。此外，根据Lambda的定价，使用MOPAR可以将DLIS的运行成本降低约2.58倍。
相关研究

与该论文相关的研究包括无服务器计算、深度学习模型优化和模型分区等方面的研究，例如“Serverless Computing: One Step Forward, Two Steps Back?”和“Deep Learning with Edge Computing: A Review”。

MOPAR: A Model Partitioning Framework for Deep Learning Inference Services on Serverless Platforms

评论