Optimizing LLM Queries in Relational Workloads

简介

分析型数据库提供商（例如Redshift、Databricks、BigQuery）已经迅速增加了对通过本地用户定义函数（UDF）调用大型语言模型（LLM）的支持，以帮助用户在分析工作负载中执行自然语言任务，例如分类、实体提取和翻译。例如，分析师可能想要在数百万个产品评论中提取客户情感。然而，LLM推理在计算和经济方面都非常昂贵：例如，运行Llama2-7B的NVIDIA L4 GPU每秒只能处理6 KB的文本。在本文中，我们探讨了如何优化在关系查询中调用LLM的分析工作负载的LLM推理。我们展示了关系查询提供了加速LLM推理的新机会，包括重新排序行以最大化LLM推理引擎内的键值（KV）缓存重用、重新排序行内的列以进一步增加缓存重用，以及去重冗余推理请求。我们在Apache Spark中实现了这些优化，以vLLM作为模型服务后端，在真实数据集上的多样化LLM基础查询基准测试中实现了高达4.4倍的端到端延迟改进。据我们所知，这是首次明确解决优化在SQL查询中调用LLM的问题的工作。
图表
解决问题

优化基于自然语言处理的分析工作负载中的大型语言模型推理，以提高计算效率和经济性。
关键思路

通过在关系查询中重新排序行和列，最大化键值缓存重用，减少冗余推理请求，从而加速大型语言模型推理。
其它亮点

论文在Apache Spark中实现了这些优化，并在真实数据集上的多样化基于大型语言模型的查询基准测试中，将端到端延迟提高了4.4倍。这是第一篇明确解决优化SQL查询中大型语言模型调用问题的论文。
相关研究

最近的相关研究包括使用多GPU进行大型语言模型推理的研究，以及将自然语言处理整合到分析工作负载中的研究，如使用UDF。

Optimizing LLM Queries in Relational Workloads

评论