- 简介大型语言模型(LLMs)目前正在各个领域得到应用。然而,它们在网络安全中解决夺旗赛(CTF)挑战的能力尚未得到充分评估。为了解决这个问题,我们开发了一种新方法,通过创建一个专门为这些应用程序设计的可扩展的开源基准数据库,来评估LLMs在解决CTF挑战方面的能力。该数据库包括LLM测试和自适应学习的元数据,汇编了来自流行比赛的各种CTF挑战。利用LLMs的高级函数调用能力,我们构建了一个完全自动化的系统,具有增强的工作流和对外部工具调用的支持。我们的基准数据集和自动化框架使我们能够评估五个LLMs的性能,包括黑盒和开源模型。这项工作为未来研究提高LLMs在交互式网络安全任务和自动化任务规划中的效率奠定了基础。通过提供专门的数据集,我们的项目为开发、测试和改进基于LLM的漏洞检测和解决方法提供了理想平台。在这些挑战中评估LLMs并与人类表现进行比较,可以揭示它们在AI驱动的网络安全解决方案中进行实际威胁管理的潜力。我们将我们的数据集公开发布到https://github.com/NYU-LLM-CTF/LLM_CTF_Database,以及我们的游乐场自动化框架https://github.com/NYU-LLM-CTF/llm_ctf_automation。
- 图表
- 解决问题评估大型语言模型在网络安全中解决Capture the Flag挑战的能力
- 关键思路开发了一个可扩展的、开源的基准数据库,专门用于测试大型语言模型在网络安全中解决Capture the Flag挑战的能力,并建立了一个完全自动化的系统,以评估五种大型语言模型的性能
- 其它亮点论文提供了一个专门用于测试大型语言模型在网络安全中解决Capture the Flag挑战的能力的基准数据库,并建立了一个完全自动化的系统,以评估五种大型语言模型的性能。作者提供了开源代码和数据集,使得研究人员可以进一步开发和优化大型语言模型在网络安全中的应用。
- 最近在这个领域中,还有一些相关的研究,如《Deep Learning for Cybersecurity: A Review》、《A Survey of Deep Learning Techniques for Cyber Security》等。
沙发等你来抢
去评论
评论
沙发等你来抢