A Jailbroken GenAI Model Can Cause Substantial Harm: GenAI-powered Applications are Vulnerable to PromptWares

2024年08月09日
  • 简介
    本文主张,越狱的GenAI模型可能会对GenAI驱动的应用程序造成重大伤害,并促进PromptWare的出现,这是一种新型攻击,可以将GenAI模型的行为从为应用程序服务转变为攻击它。PromptWare利用用户输入来越狱GenAI模型,以在GenAI驱动的应用程序的上下文中强制/执行恶意活动。首先,我们介绍了PromptWare的一个天真实现,它表现为针对Plan & Execute架构(即ReAct,函数调用)的恶意软件。我们展示了攻击者如何通过创建用户输入来强制执行所需的执行流程,前提是攻击者已知道GenAI驱动的应用程序的逻辑。我们演示了一种DoS攻击的应用,该攻击触发了GenAI驱动的助手的执行,使其进入浪费金钱和计算资源的无限循环,因为它不断调用冗余的API,从而阻止应用程序为用户提供服务。接下来,我们介绍了一个更复杂的PromptWare实现,我们称之为高级PromptWare威胁(APwT),它针对攻击者不知道逻辑的GenAI驱动的应用程序。我们展示了攻击者如何创建用户输入,以利用GenAI引擎的先进AI功能,在推理时间内启动一个由六个步骤组成的杀链,旨在升级特权、分析应用程序的上下文、识别有价值的资产、推断可能的恶意活动、决定其中一种并执行它。我们演示了APwT针对GenAI驱动的电子商务聊天机器人的应用,并展示了它如何触发SQL表的修改,可能导致未经授权的折扣销售给用户。
  • 图表
  • 解决问题
    本论文旨在探讨通过越狱GenAI模型来攻击GenAI应用程序的可能性,并介绍了PromptWare攻击的概念。作者试图证明PromptWare攻击可以利用用户输入来强制执行恶意行为,并对GenAI应用程序造成重大危害。
  • 关键思路
    PromptWare攻击利用用户输入来越狱GenAI模型,从而在GenAI应用程序的上下文中强制执行恶意行为。作者提出了两种PromptWare攻击实现方式,一种是针对已知应用程序逻辑的实现方式,另一种是针对未知应用程序逻辑的高级实现方式。
  • 其它亮点
    论文介绍了PromptWare攻击的概念和实现方式,并展示了两种攻击方式的实验结果。作者还展示了如何利用PromptWare攻击来实现DoS攻击和修改SQL表的攻击。此外,作者还提出了一些防御PromptWare攻击的方法。
  • 相关研究
    最近在这个领域中,还有一些相关研究。例如,论文提到了一些与PromptWare攻击相关的工作,如攻击基于机器学习的检测系统和攻击基于深度学习的语音识别系统的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论