SCALM: Towards Semantic Caching for Automated Chat Services with Large Language Models

简介

大型语言模型（LLMs）已经越来越受欢迎，正在改变各个领域的广泛应用。然而，它们的查询缓存系统的实际效果尚未得到彻底的研究。在这项工作中，我们首次对真实的人类与LLM交互数据进行了分析，发现了现有缓存解决方案在基于LLM的聊天服务中存在的关键挑战。我们的研究结果显示，目前的缓存方法未能利用语义连接，导致缓存性能低效且需要额外的令牌成本。为了解决这些问题，我们提出了SCALM，一种强调语义分析并识别重要缓存条目和模式的新缓存架构。我们还详细介绍了相应的缓存存储和驱逐策略的实现。我们的评估结果表明，SCALM增加了LLMChat服务的缓存命中率并降低了操作成本。与GPTCache中其他最先进的解决方案相比，SCALM的缓存命中率平均提高了63％，令牌节省率相对提高了77％。
图表
解决问题

当前LLM-based chat服务的缓存系统存在的问题是什么？
关键思路

SCALM是一种新的缓存架构，强调语义分析和识别重要的缓存条目和模式，以提高缓存命中率和降低操作成本。
其它亮点

论文分析了真实世界的人-LLM交互数据，并发现当前缓存方法未能利用语义联系，导致缓存性能低下和额外的令牌成本。作者提出了SCALM，一种新的缓存架构，以解决这些问题，并在实验中证明了其有效性。
相关研究

与本文相关的研究包括GPTCache等现有的缓存解决方案。

SCALM: Towards Semantic Caching for Automated Chat Services with Large Language Models

评论