- 简介分析型数据库提供商(例如Redshift、Databricks、BigQuery)已经迅速增加了对通过本地用户定义函数(UDF)调用大型语言模型(LLM)的支持,以帮助用户在分析工作负载中执行自然语言任务,例如分类、实体提取和翻译。例如,分析师可能想要在数百万个产品评论中提取客户情感。然而,LLM推理在计算和经济方面都非常昂贵:例如,运行Llama2-7B的NVIDIA L4 GPU每秒只能处理6 KB的文本。在本文中,我们探讨了如何优化在关系查询中调用LLM的分析工作负载的LLM推理。我们展示了关系查询提供了加速LLM推理的新机会,包括重新排序行以最大化LLM推理引擎内的键值(KV)缓存重用、重新排序行内的列以进一步增加缓存重用,以及去重冗余推理请求。我们在Apache Spark中实现了这些优化,以vLLM作为模型服务后端,在真实数据集上的多样化LLM基础查询基准测试中实现了高达4.4倍的端到端延迟改进。据我们所知,这是首次明确解决优化在SQL查询中调用LLM的问题的工作。
- 图表
- 解决问题优化基于自然语言处理的分析工作负载中的大型语言模型推理,以提高计算效率和经济性。
- 关键思路通过在关系查询中重新排序行和列,最大化键值缓存重用,减少冗余推理请求,从而加速大型语言模型推理。
- 其它亮点论文在Apache Spark中实现了这些优化,并在真实数据集上的多样化基于大型语言模型的查询基准测试中,将端到端延迟提高了4.4倍。这是第一篇明确解决优化SQL查询中大型语言模型调用问题的论文。
- 最近的相关研究包括使用多GPU进行大型语言模型推理的研究,以及将自然语言处理整合到分析工作负载中的研究,如使用UDF。
沙发等你来抢
去评论
评论
沙发等你来抢