LLMail-Inject: A Dataset from a Realistic Adaptive Prompt Injection Challenge

2025年06月11日
  • 简介
    间接提示注入攻击利用了大型语言模型(LLMs)在输入中区分指令和数据的固有限制。尽管已经提出了许多防御方法,但针对适应性对手的系统性评估仍然有限,即使成功的攻击可能带来广泛的安全和隐私影响,许多基于LLM的实际应用仍然存在漏洞。我们展示了LLMail-Inject的结果,这是一项公开挑战,模拟了一个真实的场景,在该场景中,参与者尝试通过适应性策略将恶意指令注入电子邮件,以触发基于LLM的邮件助手中的未经授权工具调用。这项挑战涵盖了多种防御策略、LLM架构和检索配置,最终生成了一个包含来自839名参与者提交的208,095个独特攻击的数据集。我们发布了挑战代码、完整的提交数据集以及我们的分析结果,这些结果展示了如何利用这些数据为指令与数据分离问题提供新的见解。我们希望这能为未来针对提示注入的实际结构化解决方案的研究奠定基础。
  • 图表
  • 解决问题
    论文试图解决大型语言模型(LLM)中指令与数据分离的问题,特别是针对间接提示注入攻击的安全性和防御机制进行评估。这是一个现有问题,但该研究通过模拟真实场景下的邮件助手攻击,提供了一个系统化评估方法,从而揭示了当前防御策略的局限性。
  • 关键思路
    关键思路是通过设计一个公开挑战(LLMail-Inject),让参与者尝试在电子邮件中注入恶意指令,以触发LLM辅助工具的非授权调用。这种方法不仅测试了多种防御策略的有效性,还覆盖了不同的LLM架构和检索配置,生成了大规模的真实攻击数据集。相比以往的研究,这种基于实际应用场景的模拟更贴近现实威胁,并为未来的研究提供了丰富的实验基础。
  • 其它亮点
    1. 构建了一个包含208,095个独特攻击提交的数据集,来自839名参与者;2. 涵盖多种防御策略、LLM架构和检索配置,展示了不同条件下的攻击成功率;3. 提供了开源代码和完整数据集,便于后续研究者复现结果或开发新方法;4. 强调了实际应用中的安全性问题,为构建更安全的LLM系统提供了方向。
  • 相关研究
    近期相关研究包括:1. 'Defending Against Prompt Injection Attacks in Large Language Models' - 探讨了几种防御提示注入的方法;2. 'Systematic Evaluation of LLM Security under Adversarial Settings' - 研究了对抗环境下的LLM安全性;3. 'Instruction-Data Separation in Generative Models: A Survey' - 综述了生成模型中指令与数据分离的技术进展;4. 'Prompt Leakage and Mitigation in Closed-Loop Systems' - 分析了闭环系统中的提示泄露问题及其缓解措施。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论