Vidur: A Large-Scale Simulation Framework For LLM Inference

简介

目前，优化大型语言模型（LLMs）的部署是很昂贵的，因为它需要实验性地运行应用负载来探索系统旋钮（如并行化策略、批处理技术和调度策略）形成的大型配置空间。为了解决这个挑战，我们提出了 Vidur，这是一个大规模、高保真度、易于扩展的 LLM 推理性能仿真框架。Vidur 使用实验性的分析和预测建模来模拟 LLM 运算符的性能，并通过估计多个感兴趣的指标（如延迟和吞吐量）来评估不同工作负载的端到端推理性能。我们验证了 Vidur 在几个 LLM 上的保真度，并展示了它在整个范围内以不到 9% 的误差估计推理延迟。此外，我们还提出了 Vidur-Search，这是一个帮助优化 LLM 部署的配置搜索工具。Vidur-Search 使用 Vidur 来自动识别最具成本效益的部署配置，以满足应用程序性能约束。例如，Vidur-Search 在 CPU 机器上的一个小时内找到了 LLaMA2-70B 的最佳部署配置，而基于部署的探索则需要 42K GPU 小时，成本约为 218K 美元。 Vidur 的源代码可在 https://github.com/microsoft/vidur 上获得。
图表
解决问题

优化大型语言模型的部署是昂贵的，因为需要实验性地运行应用工作负载并探索由系统旋钮（如并行化策略、批处理技术和调度策略）形成的大型配置空间。文章试图解决这个问题。
关键思路

文章提出了 Vidur，一个大规模、高保真度、易于扩展的 LLM 推理性能模拟框架。Vidur 使用实验性 profiling 和预测建模来模拟 LLM 运算符的性能，并通过估计延迟和吞吐量等多个感兴趣的指标来评估不同工作负载的端到端推理性能。
其它亮点

该论文的亮点包括：Vidur-Search 工具可以自动识别最具成本效益的部署配置，以满足应用程序性能约束；Vidur 在多个 LLM 上验证了其保真度，估计推理延迟的误差小于 9%；Vidur 的源代码在 GitHub 上开放。
相关研究

近年来，在大型语言模型推理性能方面，还有一些相关研究。例如：《Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism》、《Optimus: An Efficient Dynamic Transformer》。

Vidur: A Large-Scale Simulation Framework For LLM Inference

评论