A Comprehensive Survey in LLM(-Agent) Full Stack Safety: Data, Training and Deployment

2025年04月22日
  • 简介
    大型语言模型(LLMs)的卓越成功为学术界和工业界实现通用人工智能(AGI)开辟了一条充满希望的道路,这得益于它们在各种应用中展现出的前所未有的性能。随着 LLMs 在研究和商业领域的重要性日益增加,其安全性和可靠性问题也引起了越来越多的关注,不仅对研究人员和企业至关重要,也对每个国家具有深远影响。目前,关于 LLM 安全性的现有综述主要集中在 LLM 生命周期的特定阶段,例如部署阶段或微调阶段,缺乏对整个“生命链”的全面理解。 为弥补这一空白,本文首次引入了“全栈”安全的概念,系统地考虑了 LLM 从训练到部署再到最终商业化的整个过程中的安全性问题。与现有的 LLM 安全性综述相比,我们的工作展示了以下几个显著优势:(I)全面视角。我们将完整的 LLM 生命周期定义为包括数据准备、预训练、后训练、部署和最终商业化。据我们所知,这是首个涵盖 LLM 整个生命周期的安全性综述。(II)广泛的文献支持。我们的研究基于对 800 多篇论文的详尽回顾,确保了对安全性问题的全面覆盖和系统化组织,从而形成更整体的理解。(III)独特见解。通过系统的文献分析,我们为每一章制定了可靠的路线图和视角。我们的工作指出了多个有前景的研究方向,包括数据生成的安全性、对齐技术、模型编辑以及基于 LLM 的代理系统等。这些见解为未来从事该领域研究的学者提供了宝贵的指导。
  • 图表
  • 解决问题
    本论文试图解决大型语言模型(LLMs)生命周期中安全性和安全性保障的问题,特别是从数据准备到最终商业化的全过程。这是一个新问题,因为现有研究通常仅关注特定阶段(如部署或微调),而缺乏对整个生命周期的全面审视。
  • 关键思路
    论文提出了一种全新的“全栈”安全视角,系统性地分析了LLMs在数据准备、预训练、后训练、部署和商业化等各个阶段的安全挑战。相比当前研究,该论文首次涵盖了LLM的完整生命周期,并通过800多篇文献的综合分析提供了详尽的安全问题分类和解决方案建议。
  • 其它亮点
    论文亮点包括:1) 提供了首个涵盖LLM全生命周期的安全调查;2) 基于广泛文献综述,提出了可靠的研究路线图;3) 指出了多个未来研究方向,如数据生成中的安全性、模型对齐技术、模型编辑以及基于LLM的代理系统设计。此外,虽然未提及具体实验或开源代码,但其理论框架为后续实验设计奠定了基础,值得进一步深入研究。
  • 相关研究
    相关研究包括但不限于以下领域:1) LLM部署阶段的安全性分析(例如,对抗攻击和隐私保护);2) 微调阶段的偏见与毒性控制(如伦理对齐技术);3) 数据准备阶段的数据质量与多样性优化。一些相关的论文标题包括《Ethical Challenges in Large Language Models》、《Security Risks of Fine-Tuning Large Language Models》以及《Data Quality for Pretraining Large Language Models》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论