Andes: Defining and Enhancing Quality-of-Experience in LLM-Based Text Streaming Services

2024年04月25日
  • 简介
    大语言模型(LLM)的出现已经改变了基于文本的服务,使实时翻译和人工智能驱动的聊天机器人等能力得以实现。然而,现有的服务系统主要集中在优化服务器端的聚合指标,如令牌生成吞吐量,忽略了用户在流式文本中的个体体验。因此,在高负荷和/或突发负荷下,大量用户可能会收到不利的服务质量或较差的体验质量(QoE)。在本文中,我们首先正式定义了文本流服务的QoE,其中文本被逐步交付和交互给用户,通过考虑与用户的整个交互过程中的端到端令牌交付过程。随后,我们提出了Andes,这是一个QoE感知的服务系统,可增强LLM启用的文本流服务的用户体验。在其核心,Andes在多个请求之间的时间上策略性地分配争用的GPU资源,以优化它们的QoE。我们的评估证明,与vLLM等最先进的LLM服务系统相比,Andes在高请求率下将平均QoE提高了多达3.2倍,或者在保持高QoE的同时获得多达1.6倍的更高请求率。
  • 图表
  • 解决问题
    提高文本流式服务的用户体验
  • 关键思路
    提出Andes系统,通过GPU资源的策略分配,优化多个请求的QoE
  • 其它亮点
    Andes系统相比vLLM等现有系统,在高请求率下平均QoE提高了最多3.2倍,或者在保持高QoE的同时,请求率提高了最多1.6倍
  • 相关研究
    当前领域的相关研究包括大语言模型(LLM)的优化、实时翻译和AI聊天机器人等
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论