Parrot: Efficient Serving of LLM-based Applications with Semantic Variable

向作者提问

NEW

简介

大型语言模型（LLM）的崛起使得基于LLM的应用（也称为AI代理或副驾驶员）成为可能，这是一种将LLM和传统软件的优势结合起来的新软件范例。不同租户的多样化LLM应用程序可以使用多个LLM请求设计复杂的工作流程来完成一个任务。然而，它们必须使用今天公共LLM服务提供的过于简单的请求级API，从而丢失了重要的应用程序级信息。公共LLM服务必须盲目地优化单个LLM请求，导致LLM应用程序的端到端性能次优。本文介绍了Parrot，这是一个LLM服务系统，专注于基于LLM的应用程序的端到端体验。Parrot提出了语义变量，这是一种统一的抽象，以公开应用程序级别的知识给公共LLM服务。语义变量在请求的提示中注释输入/输出变量，并在连接多个LLM请求时创建数据管道，为编程LLM应用程序提供了一种自然的方式。将语义变量暴露给公共LLM服务使其能够执行传统的数据流分析，以发现多个LLM请求之间的相关性。这种相关性为基于LLM的应用程序的端到端性能开辟了全新的优化空间。广泛的评估表明，Parrot可以在流行和实用的LLM应用程序的常见用例中实现一个数量级的改进。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

Parrot论文旨在解决当前公共LLM服务只提供过于简单的请求级别API，导致LLM应用程序失去应用程序级别信息，从而影响LLM应用程序的端到端性能的问题。
关键思路

Parrot提出了语义变量的概念，通过注释请求的输入/输出变量，创建多个LLM请求之间的数据管道，从而提供了一种自然的编程方式，并将语义变量暴露给公共LLM服务，以便进行传统的数据流分析，以揭示多个LLM请求之间的相关性，从而为LLM应用程序的端到端性能提供了全新的优化空间。
其它亮点

论文的亮点包括提出了语义变量的概念，提供了一种自然的编程方式，可以实现LLM应用程序的端到端性能的优化。实验结果表明，Parrot可以在流行的LLM应用程序中实现数量级的性能提升。
相关研究

最近的相关研究包括OpenAI的GPT-3，Google的BERT和Facebook的RoBERTa等大型语言模型。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问