- 简介当前,针对大语言模型(LLMs)的安全测试工作大多集中在基础模型的评估上。然而,随着系统提示词、检索流程和防护机制等组件引入了显著影响大语言模型应用整体安全性的额外因素,人们越来越需要在应用层面进行安全性评估。本文提出了一种用于评估大语言模型系统中应用级安全性的实用框架,并通过在我组织内多个用例中的实际部署进行了验证。该框架包含两个部分:(1)制定定制化安全风险分类法的原则,以及(2)评估大语言模型应用中安全风险的实践方法。我们展示了该框架在我司内部试点项目中的具体应用,为希望扩大安全测试工作的组织提供了参考依据。本研究旨在弥合人工智能安全领域的理论概念与实际操作之间的差距,为实现安全且可扩展的大语言模型部署提供可行的指导。
-
- 图表
- 解决问题论文试图解决当前大型语言模型(LLM)安全测试主要集中在基础模型评估,而忽视了应用层安全性的问题。随着系统提示、检索流程和防护机制等组件的引入,这些因素对LLM应用的整体安全性产生了显著影响。这是一个新兴且重要的问题,因为实际部署中需要更全面的安全保障。
- 关键思路提出了一种实用框架来评估LLM系统中的应用级安全性,包括两个部分:(1) 制定定制化的安全风险分类法的原则;(2) 评估LLM应用中安全风险的实践方法。与现有研究相比,该论文强调从理论到实践的过渡,提供可操作的指导以支持安全且可扩展的LLM部署。
- 其它亮点1. 通过组织内部多个用例的实际部署验证了框架的有效性 2. 提供了如何在内部试点项目中应用该框架的具体示例 3. 为希望扩展其安全测试工作的组织提供了参考点 4. 实验设计结合了真实世界场景,具有较高的实用性
- 1. 《On the Safety of Large Language Models》 2. 《Guardrails for Large Language Models: A Framework for Safe Deployment》 3. 《System Prompt Security in LLM Applications》 4. 《Retrieval-Augmented Generation: Security and Privacy Implications》 5. 《Towards a Taxonomy of AI Risks》
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流