Assessing Prompt Injection Risks in 200+ Custom GPTs

2023年11月20日
  • 简介
    在人工智能快速发展的领域中,ChatGPT已被广泛应用于各种应用中。新功能:用户定制ChatGPT模型以满足特定需求已经在AI实用性方面开创了新的局面。然而,这项研究揭示了这些用户定制的GPT中固有的一个重大安全漏洞:提示注入攻击。通过对200多个用户设计的GPT模型进行对抗性提示的全面测试,我们证明了这些系统容易受到提示注入攻击。通过提示注入,攻击者不仅可以提取定制系统的提示,还可以访问上传的文件。本文提供了对提示注入的第一手分析,同时评估了此类攻击可能的缓解措施。我们的研究结果强调了在设计和部署可定制的GPT模型时需要强大的安全框架的紧迫性。本文的目的是提高AI社区的意识并促进行动,确保GPT定制的好处不是以牺牲安全和隐私为代价的。
  • 图表
  • 解决问题
    用户自定义GPT模型存在的安全漏洞问题,如何进行有效的保护?
  • 关键思路
    通过对200个用户设计的GPT模型进行全面测试,揭示了prompt injection攻击的漏洞,并提出了相应的解决方案。
  • 其它亮点
    实验设计了adversarial prompts测试,发现用户自定义GPT模型存在prompt injection攻击漏洞,可以通过注入恶意prompt获取系统prompt和上传的文件;论文提出了一些解决方案,如限制用户输入、对输入进行过滤等;论文呼吁AI社区加强安全意识和安全保护。
  • 相关研究
    最近在这个领域中,也有类似的研究,如《Adversarial Attacks on Neural Networks for Graph Data》、《Adversarial Attacks on Graph Neural Networks via Meta Learning》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论