A Survey of LLM $\times$ DATA

2025年05月24日
  • 简介
    大型语言模型(LLM)与数据管理(DATA)的融合正在快速重新定义这两个领域。在本文中,我们全面回顾了两者之间的双向关系。一方面,在 DATA4LLM 中,涵盖大规模数据处理、存储和服务的体系为 LLM 提供了预训练、后训练、检索增强生成以及代理工作流等阶段所需的高质量、多样性和时效性数据:(i) 针对 LLM 的数据处理包括可扩展的数据获取、去重、过滤、选择、领域混合和合成增强;(ii) 针对 LLM 的数据存储关注高效的数据与模型格式、分布式及异构存储层次结构、键值缓存管理以及容错检查点机制;(iii) 针对 LLM 的数据服务解决了检索增强生成(RAG,例如知识后处理)、LLM 推理(例如提示压缩、数据溯源)以及训练策略(例如数据打包和打乱)中的挑战。另一方面,在 LLM4DATA 中,LLM 正逐渐成为数据管理的通用引擎。我们回顾了以下方面的最新进展:(i) 数据操作,包括自动数据清洗、集成与发现;(ii) 数据分析,涵盖对结构化、半结构化和非结构化数据的推理;以及 (iii) 系统优化(例如配置调优、查询重写、异常诊断),这些都得益于 LLM 技术,如检索增强提示、任务专用微调和多智能体协作。
  • 图表
  • 解决问题
    论文试图解决如何将大规模语言模型(LLM)与数据管理(DATA)进行深度整合的问题,包括双向关系:DATA如何支持LLM的训练和推理,以及LLM如何作为通用工具改进数据管理。这是一个新兴领域的问题,随着LLM的能力增强和数据规模的增长而变得尤为重要。
  • 关键思路
    关键思路在于从两个方向探讨LLM和DATA的交互:1) DATA4LLM,即通过高效的数据处理、存储和服务技术为LLM提供高质量、多样性和时效性的数据支持;2) LLM4DATA,即将LLM作为通用引擎应用于数据清洗、集成、分析以及系统优化等任务中。相比现有研究,本文首次全面总结了这种双向互动,并提出了具体的实现路径和技术细节。
  • 其它亮点
    论文亮点包括:1) 提出了详细的DATA4LLM框架,涵盖数据处理(如去重、过滤)、存储(如KV缓存管理和分布式存储)和服务(如RAG中的知识后处理);2) 深入讨论了LLM在数据管理中的应用潜力,例如自动数据清洗、查询改写和异常诊断;3) 强调了多种LLM技术(如检索增强提示、任务特化微调和多智能体协作)对数据管理的具体贡献。此外,文中引用了大量近期研究成果,但未明确提及是否提供了开源代码或具体实验数据集。
  • 相关研究
    最近的相关研究包括:1) 数据驱动的LLM优化方法,如《Scalable Data Processing Pipelines for Pretraining Language Models》;2) LLM辅助的数据管理技术,如《Large Language Models as General-Purpose Tools for Data Integration》;3) 针对特定任务的LLM应用,如《Fine-Tuning LLMs for Query Optimization in Database Systems》。这些工作共同推动了LLM和数据管理领域的深度融合。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论