SCALM: Towards Semantic Caching for Automated Chat Services with Large Language Models

2024年05月24日
  • 简介
    大型语言模型(LLMs)已经越来越受欢迎,正在改变各个领域的广泛应用。然而,它们的查询缓存系统的实际效果尚未得到彻底的研究。在这项工作中,我们首次对真实的人类与LLM交互数据进行了分析,发现了现有缓存解决方案在基于LLM的聊天服务中存在的关键挑战。我们的研究结果显示,目前的缓存方法未能利用语义连接,导致缓存性能低效且需要额外的令牌成本。为了解决这些问题,我们提出了SCALM,一种强调语义分析并识别重要缓存条目和模式的新缓存架构。我们还详细介绍了相应的缓存存储和驱逐策略的实现。我们的评估结果表明,SCALM增加了LLMChat服务的缓存命中率并降低了操作成本。与GPTCache中其他最先进的解决方案相比,SCALM的缓存命中率平均提高了63%,令牌节省率相对提高了77%。
  • 图表
  • 解决问题
    当前LLM-based chat服务的缓存系统存在的问题是什么?
  • 关键思路
    SCALM是一种新的缓存架构,强调语义分析和识别重要的缓存条目和模式,以提高缓存命中率和降低操作成本。
  • 其它亮点
    论文分析了真实世界的人-LLM交互数据,并发现当前缓存方法未能利用语义联系,导致缓存性能低下和额外的令牌成本。作者提出了SCALM,一种新的缓存架构,以解决这些问题,并在实验中证明了其有效性。
  • 相关研究
    与本文相关的研究包括GPTCache等现有的缓存解决方案。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论