- 简介目前,优化大型语言模型(LLMs)的部署非常昂贵,因为它需要通过实验运行应用程序工作负载来探索系统旋钮(如并行化策略、批处理技术和调度策略)形成的大型配置空间。为了解决这个挑战,我们提出了 Vidur - 一个大规模、高保真度、易于扩展的 LLM 推理性能仿真框架。 Vidur 使用实验性分析和预测建模的组合来模拟 LLM 运算符的性能,并通过估计多个感兴趣的度量(如延迟和吞吐量)来评估不同工作负载的端到端推理性能。我们在几个 LLM 上验证了 Vidur 的保真度,并表明它在整个范围内以不到9%的误差估计推理延迟。此外,我们提供了 Vidur-Search,这是一个配置搜索工具,可帮助优化 LLM 部署。 Vidur-Search 使用 Vidur 来自动识别最具成本效益的部署配置,以满足应用程序性能约束。例如,Vidur-Search 可以在 CPU 机器上的一小时内找到 LLaMA2-70B 的最佳部署配置,而部署探索则需要 42K GPU 小时,成本约为 218K 美元。 Vidur 的源代码可在 https://github.com/microsoft/vidur 上找到。
-
- 解决问题优化大型语言模型的部署是昂贵的,本文试图通过模拟框架来解决这个问题。
- 关键思路提出了 Vidur,一个大规模、高保真度、易扩展的 LLM 推理性能仿真框架,用于评估不同工作负载的端到端推理性能,并自动识别最具成本效益的部署配置。
- 其它亮点Vidur 通过实验分析和预测建模相结合来模拟 LLM 运算符的性能,并评估推理延迟和吞吐量等多个感兴趣的指标。Vidur-Search 是一个配置搜索工具,可自动识别满足应用程序性能约束的最具成本效益的部署配置。作者在多个 LLM 上验证了 Vidur 的保真度,并展示了 Vidur-Search 的优越性能。作者已在 GitHub 上开源 Vidur 的源代码。
- 与本文相关的研究包括:《Neural Adaptive Content-aware Internet Video Delivery with Reinforcement Learning》、《An Empirical Study of the Relationship between Latency and User Engagement in Mobile AR》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流