The CAP Principle for LLM Serving

2024年05月18日
  • 简介
    我们对大型语言模型(LLM)服务领域进行了调查,以了解成本效益和准确性之间的复杂动态,这是由于在大规模部署模型时需要更长的语境理解而放大的。我们的调查发现,在这个领域中的工作优化了三个不同但相互冲突的目标:提高服务上下文长度(C)、提高服务准确性(A)和提高服务性能(P)。受数据库中的CAP定理启发,我们提出了一个LLM服务的CAP原则,即任何优化最多只能同时改善这三个目标中的两个。我们的调查将现有的工作分类到这个框架中。我们发现,用户感知度量指标的定义和连续性对于确定是否已经达到目标至关重要,类似于野外CAP数据库。我们认识到LLM服务的CAP原则是一个指导原则,而不是一个正式的定理,可以告知设计者在服务模型中固有和动态的权衡。由于服务准确性和性能已经得到广泛研究,因此本调查重点关注扩展服务上下文长度并解决由此产生的挑战的工作。
  • 图表
  • 解决问题
    本论文旨在了解在大规模部署模型时,成本效益和准确性之间的复杂动态关系,并提出了一种针对LLM服务的CAP原则,即任何优化最多同时改善两个目标:提高服务上下文长度(C)、提高服务准确性(A)和提高服务性能(P)。
  • 关键思路
    CAP原则是一种指导性原则,而不是正式定理,旨在告知设计者在服务模型中固有的和动态的权衡。
  • 其它亮点
    本文将现有的工作分类,并提出了在这个框架下的CAP原则。作者认为用户感知度量指标的定义和连续性对于确定是否已达到目标至关重要。本文侧重于扩展服务上下文长度并解决由此产生的挑战。
  • 相关研究
    近期在这个领域中,还有一些相关的研究,如《Optimus: An Efficient Dynamic Transformer》、《Efficient Transformers: A Survey》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论