MaPPing Your Model: Assessing the Impact of Adversarial Attacks on LLM-based Programming Assistants

2024年07月12日
  • 简介
    基于语言模型的编程助手虽然可以提高编程速度,但也有引入更多安全漏洞的风险。之前的研究已经探讨了如何恶意微调语言模型以更频繁地建议漏洞。随着代理型语言模型的兴起,这些模型可能会使用来自不受信任的第三方的结果,存在越来越大的攻击模型提示的风险。我们提出了一种名为MaPP的恶意编程提示攻击,攻击者向编程任务的提示文本中添加少量文本(小于500字节)。我们证明了我们的提示策略可以导致LLM添加漏洞,同时继续编写正确的代码。我们在七个常见的LLM上评估了三种提示,从基本的到商业化的最先进模型。使用HumanEval基准,我们发现我们的提示策略是广泛有效的,不需要为不同的LLM进行定制。此外,最擅长HumanEval的LLM也最擅长遵循我们的恶意指令,这表明仅仅扩展语言模型的规模并不能防止MaPP攻击。使用一个包含16个场景的8个CWE的数据集,我们发现MaPP攻击也能够在各种模型中实现特定的、有针对性的漏洞。我们的工作强调了保护LLM提示免受操纵以及严格审计借助LLM生成的代码的必要性。
  • 图表
  • 解决问题
    本论文旨在研究LLM编程助手存在的安全漏洞,提出一种名为MaPP的攻击方式,即通过篡改编程任务的提示文本,使得LLM在写出正确代码的同时也添加了安全漏洞。研究旨在引起人们对LLM提示文本安全性的重视。
  • 关键思路
    MaPP攻击的核心思路是通过篡改编程任务的提示文本,使得LLM在生成代码时添加安全漏洞。研究者通过实验验证了该攻击方式的有效性,并提出了需要保护LLM提示文本免受篡改的建议。
  • 其它亮点
    论文设计了三个提示文本,验证了它们在七个LLM模型上的有效性,并使用HumanEval基准测试了结果。论文还使用了包含16个场景中8个CWE的数据集,证明了MaPP攻击在实现特定和有针对性的漏洞方面的有效性。研究者提醒人们需要加强LLM提示文本的安全性,并严格审核LLM编写的代码。
  • 相关研究
    在相关研究方面,之前的研究已经探讨了LLM如何被恶意调整以更频繁地建议漏洞。此外,随着代理LLM的兴起,存在第三方提供的结果被滥用的风险。本文提出的MaPP攻击方式旨在引起人们对LLM提示文本安全性的关注,提醒人们需要保护LLM提示文本免受篡改。
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论