- 简介大型语言模型(LLMs)已经越来越受欢迎,正在改变各个领域的广泛应用。然而,它们的查询缓存系统的实际效果尚未得到彻底的研究。在这项工作中,我们首次对真实的人类与LLM交互数据进行了分析,发现了现有缓存解决方案在基于LLM的聊天服务中存在的关键挑战。我们的研究结果显示,目前的缓存方法未能利用语义连接,导致缓存性能低效且需要额外的令牌成本。为了解决这些问题,我们提出了SCALM,一种强调语义分析并识别重要缓存条目和模式的新缓存架构。我们还详细介绍了相应的缓存存储和驱逐策略的实现。我们的评估结果表明,SCALM增加了LLMChat服务的缓存命中率并降低了操作成本。与GPTCache中其他最先进的解决方案相比,SCALM的缓存命中率平均提高了63%,令牌节省率相对提高了77%。
- 图表
- 解决问题当前LLM-based chat服务的缓存系统存在的问题是什么?
- 关键思路SCALM是一种新的缓存架构,强调语义分析和识别重要的缓存条目和模式,以提高缓存命中率和降低操作成本。
- 其它亮点论文分析了真实世界的人-LLM交互数据,并发现当前缓存方法未能利用语义联系,导致缓存性能低下和额外的令牌成本。作者提出了SCALM,一种新的缓存架构,以解决这些问题,并在实验中证明了其有效性。
- 与本文相关的研究包括GPTCache等现有的缓存解决方案。
沙发等你来抢
去评论
评论
沙发等你来抢