LLM Agents can Autonomously Hack Websites

简介

近年来，大型语言模型（LLMs）变得越来越强大，现在可以与工具进行交互（即调用函数）、阅读文档并递归地调用自身。因此，这些LLM现在可以作为代理自主运行。随着这些代理的能力不断提升，最近的研究已经推测了LLM代理将如何影响网络安全。然而，关于LLM代理的攻击能力，目前还知之甚少。在这项工作中，我们展示了LLM代理可以自主黑客网站，执行诸如盲目数据库模式提取和SQL注入等复杂任务，无需人类反馈。重要的是，代理不需要事先知道漏洞。这种能力是由具有高度工具使用和利用扩展上下文能力的前沿模型所独特实现的。即，我们展示了GPT-4能够进行这样的黑客攻击，但现有的开源模型则不能。最后，我们展示了GPT-4能够自主发现野外网站的漏洞。我们的发现引发了关于广泛部署LLM的问题。
图表
解决问题

研究LLM代理的攻击能力，探究其是否能够自主攻击网站并进行复杂的数据库架构提取和SQL注入攻击，同时发现网站漏洞。
关键思路

通过使用高度可用于工具使用和利用扩展上下文的前沿模型，如GPT-4，实现LLM代理的自主攻击能力，而无需事先了解漏洞。
其它亮点

实验展示了GPT-4的攻击能力，同时也指出目前的开源模型并不具备这种能力。研究提出了LLM代理的攻击能力对网络安全的影响，值得进一步研究。
相关研究

最近的相关研究主要集中在LLM代理对网络安全的影响方面，如LLM代理的攻击能力和对抗攻击的防御策略等。

LLM Agents can Autonomously Hack Websites

评论