Knowledge Return Oriented Prompting (KROP)

简介

许多现今部署的大型语言模型（LLM）和由LLM驱动的应用程序都使用某种形式的提示过滤器或对齐来保护它们的完整性。然而，这些措施并不是万无一失的。本文介绍了一种名为KROP的提示注入技术，能够混淆提示注入攻击，使它们对大多数安全措施几乎不可检测。
图表
解决问题

本论文旨在介绍一种名为KROP的prompt注入技术，旨在解决prompt注入攻击的问题。
关键思路

KROP技术可以混淆prompt注入攻击，使其对大多数安全措施都无法检测到。
其它亮点

该论文的实验设计了多个场景来验证KROP技术的有效性，并且使用了开源的GPT-2模型进行实验。此外，该技术也可以用于生成更加自然的文本。
相关研究

最近在这个领域中，还有一些相关的研究，如《Protecting Language Models from Adversarial Attacks with Latent Distribution Constraints》和《Adversarial Examples Are Not Bugs, They Are Features》等。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论