Vidur: A Large-Scale Simulation Framework For LLM Inference

向作者提问

NEW

简介

目前，优化大型语言模型（LLMs）的部署非常昂贵，因为它需要通过实验运行应用程序工作负载来探索系统旋钮（如并行化策略、批处理技术和调度策略）形成的大型配置空间。为了解决这个挑战，我们提出了 Vidur - 一个大规模、高保真度、易于扩展的 LLM 推理性能仿真框架。 Vidur 使用实验性分析和预测建模的组合来模拟 LLM 运算符的性能，并通过估计多个感兴趣的度量（如延迟和吞吐量）来评估不同工作负载的端到端推理性能。我们在几个 LLM 上验证了 Vidur 的保真度，并表明它在整个范围内以不到9％的误差估计推理延迟。此外，我们提供了 Vidur-Search，这是一个配置搜索工具，可帮助优化 LLM 部署。 Vidur-Search 使用 Vidur 来自动识别最具成本效益的部署配置，以满足应用程序性能约束。例如，Vidur-Search 可以在 CPU 机器上的一小时内找到 LLaMA2-70B 的最佳部署配置，而部署探索则需要 42K GPU 小时，成本约为 218K 美元。 Vidur 的源代码可在 https://github.com/microsoft/vidur 上找到。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
解决问题

优化大型语言模型的部署是昂贵的，本文试图通过模拟框架来解决这个问题。
关键思路

提出了 Vidur，一个大规模、高保真度、易扩展的 LLM 推理性能仿真框架，用于评估不同工作负载的端到端推理性能，并自动识别最具成本效益的部署配置。
其它亮点

Vidur 通过实验分析和预测建模相结合来模拟 LLM 运算符的性能，并评估推理延迟和吞吐量等多个感兴趣的指标。Vidur-Search 是一个配置搜索工具，可自动识别满足应用程序性能约束的最具成本效益的部署配置。作者在多个 LLM 上验证了 Vidur 的保真度，并展示了 Vidur-Search 的优越性能。作者已在 GitHub 上开源 Vidur 的源代码。
相关研究

与本文相关的研究包括：《Neural Adaptive Content-aware Internet Video Delivery with Reinforcement Learning》、《An Empirical Study of the Relationship between Latency and User Engagement in Mobile AR》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问