A Survey of LLM $\times$ DATA

2025年05月24日
  • 简介
    大语言模型(LLM)与数据管理(DATA)的融合正在快速重塑这两个领域。在本综述中,我们全面分析了两者之间的双向关系。一方面,在 DATA4LLM 中,涵盖大规模数据处理、存储和服务的技术为 LLM 提供了预训练、后训练、检索增强生成以及代理工作流等阶段所需的高质量、多样性和时效性数据:(i)面向 LLM 的数据处理包括可扩展的数据获取、去重、过滤、选择、领域混合以及合成增强;(ii)面向 LLM 的数据存储专注于高效的数据和模型格式、分布式及异构存储层次结构、键值缓存管理以及容错检查点技术;(iii)面向 LLM 的数据服务解决了检索增强生成(RAG,例如知识后处理)、LLM 推理(例如提示压缩、数据溯源)以及训练策略(例如数据打包和洗牌)中的挑战。另一方面,在 LLM4DATA 中,LLM 正逐渐成为数据管理的通用引擎。我们回顾了近期在以下方面的进展:(i)数据操作,包括自动数据清洗、集成与发现;(ii)数据分析,涵盖对结构化、半结构化和非结构化数据的推理;(iii)系统优化(例如配置调优、查询重写、异常诊断),这些都得益于 LLM 技术的支持,例如检索增强提示、任务专用微调以及多代理协作。
  • 图表
  • 解决问题
    论文试图解决大型语言模型(LLM)与数据管理(DATA)之间的双向整合问题。具体来说,它探讨了如何利用高质量的数据支持LLM的训练和推理(DATA4LLM),以及如何使用LLM来改进数据管理任务(LLM4DATA)。这是一个新兴领域的问题,随着LLM的发展而变得越来越重要。
  • 关键思路
    关键思路是将LLM与数据管理视为一个闭环系统,其中数据管理为LLM提供高质量、多样性和时效性的数据(DATA4LLM),而LLM反过来作为通用工具优化数据处理、分析和系统优化(LLM4DATA)。相比现有研究,本文不仅详细拆解了数据生命周期中每个环节对LLM的支持作用,还系统性地总结了LLM在数据管理中的广泛应用场景。
  • 其它亮点
    论文全面覆盖了LLM和数据管理的双向关系,并提出了具体的实现路径,例如数据去重、过滤、存储优化以及通过RAG增强推理等技术细节。实验设计可能涉及多种大规模数据集和真实场景应用,但未明确提及具体数据集或开源代码。未来值得深入研究的方向包括更高效的LLM数据服务架构、动态数据更新机制以及针对特定领域任务的LLM调优方法。
  • 相关研究
    近期相关研究包括:1) 'Retrieval-Augmented Generation for Code Summarization' 探讨了结合检索增强生成的代码摘要生成;2) 'Data-Centric AI: The Next Frontier in Machine Learning' 强调以数据为中心的人工智能方法;3) 'Large Language Models as Data Curators' 研究了LLM在数据清洗和集成中的应用;4) 'Optimizing Database Queries with Pretrained Transformers' 利用预训练模型优化数据库查询性能。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论