Assessing Prompt Injection Risks in 200+ Custom GPTs

简介

在人工智能快速发展的领域中，ChatGPT已被广泛应用于各种应用中。新功能：用户定制ChatGPT模型以满足特定需求已经在AI实用性方面开创了新的局面。然而，这项研究揭示了这些用户定制的GPT中固有的一个重大安全漏洞：提示注入攻击。通过对200多个用户设计的GPT模型进行对抗性提示的全面测试，我们证明了这些系统容易受到提示注入攻击。通过提示注入，攻击者不仅可以提取定制系统的提示，还可以访问上传的文件。本文提供了对提示注入的第一手分析，同时评估了此类攻击可能的缓解措施。我们的研究结果强调了在设计和部署可定制的GPT模型时需要强大的安全框架的紧迫性。本文的目的是提高AI社区的意识并促进行动，确保GPT定制的好处不是以牺牲安全和隐私为代价的。
图表
解决问题

用户自定义GPT模型存在的安全漏洞问题，如何进行有效的保护？
关键思路

通过对200个用户设计的GPT模型进行全面测试，揭示了prompt injection攻击的漏洞，并提出了相应的解决方案。
其它亮点

实验设计了adversarial prompts测试，发现用户自定义GPT模型存在prompt injection攻击漏洞，可以通过注入恶意prompt获取系统prompt和上传的文件；论文提出了一些解决方案，如限制用户输入、对输入进行过滤等；论文呼吁AI社区加强安全意识和安全保护。
相关研究

最近在这个领域中，也有类似的研究，如《Adversarial Attacks on Neural Networks for Graph Data》、《Adversarial Attacks on Graph Neural Networks via Meta Learning》等。

Assessing Prompt Injection Risks in 200+ Custom GPTs

评论