MaPPing Your Model: Assessing the Impact of Adversarial Attacks on LLM-based Programming Assistants

简介

基于语言模型的编程助手虽然可以提高编程速度，但也有引入更多安全漏洞的风险。之前的研究已经探讨了如何恶意微调语言模型以更频繁地建议漏洞。随着代理型语言模型的兴起，这些模型可能会使用来自不受信任的第三方的结果，存在越来越大的攻击模型提示的风险。我们提出了一种名为MaPP的恶意编程提示攻击，攻击者向编程任务的提示文本中添加少量文本（小于500字节）。我们证明了我们的提示策略可以导致LLM添加漏洞，同时继续编写正确的代码。我们在七个常见的LLM上评估了三种提示，从基本的到商业化的最先进模型。使用HumanEval基准，我们发现我们的提示策略是广泛有效的，不需要为不同的LLM进行定制。此外，最擅长HumanEval的LLM也最擅长遵循我们的恶意指令，这表明仅仅扩展语言模型的规模并不能防止MaPP攻击。使用一个包含16个场景的8个CWE的数据集，我们发现MaPP攻击也能够在各种模型中实现特定的、有针对性的漏洞。我们的工作强调了保护LLM提示免受操纵以及严格审计借助LLM生成的代码的必要性。
图表
解决问题

本论文旨在研究LLM编程助手存在的安全漏洞，提出一种名为MaPP的攻击方式，即通过篡改编程任务的提示文本，使得LLM在写出正确代码的同时也添加了安全漏洞。研究旨在引起人们对LLM提示文本安全性的重视。
关键思路

MaPP攻击的核心思路是通过篡改编程任务的提示文本，使得LLM在生成代码时添加安全漏洞。研究者通过实验验证了该攻击方式的有效性，并提出了需要保护LLM提示文本免受篡改的建议。
其它亮点

论文设计了三个提示文本，验证了它们在七个LLM模型上的有效性，并使用HumanEval基准测试了结果。论文还使用了包含16个场景中8个CWE的数据集，证明了MaPP攻击在实现特定和有针对性的漏洞方面的有效性。研究者提醒人们需要加强LLM提示文本的安全性，并严格审核LLM编写的代码。
相关研究

在相关研究方面，之前的研究已经探讨了LLM如何被恶意调整以更频繁地建议漏洞。此外，随着代理LLM的兴起，存在第三方提供的结果被滥用的风险。本文提出的MaPP攻击方式旨在引起人们对LLM提示文本安全性的关注，提醒人们需要保护LLM提示文本免受篡改。

许愿开讲

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论