Training Language Model Agents to Find Vulnerabilities with CTF-Dojo

向作者提问

NEW

简介

大型语言模型（LLMs）在可执行运行时环境中训练时展现出了卓越的能力，尤其是在通过可验证的反馈循环进行软件工程任务时表现突出。然而，目前仍缺乏可扩展且通用的、基于执行的训练环境，这限制了更具能力的机器学习代理的训练进展。我们推出了 CTF-Dojo，这是首个专为训练具备可验证反馈的大型语言模型而设计的大规模可执行运行时环境，包含 658 个功能完整的夺旗赛（CTF）风格挑战，全部以 Docker 容器化，确保可重现性。为了实现无需人工干预的快速扩展，我们开发了 CTF-Forge，这是一个自动化流水线，可在数分钟内将公开可用的资源转化为即用型执行环境，省去了传统上所需的数周专家配置工作。我们仅使用 CTF-Dojo 中的 486 条高质量、可执行验证的训练轨迹来训练基于 LLM 的智能代理，在三个具有挑战性的基准测试（InterCode-CTF、NYU CTF Bench 和 Cybench）中，相较强大基线模型实现了最高 11.6% 的绝对提升。我们表现最佳的 32B 模型在 Pass@1 指标上达到了 31.9%，树立了一个新的开源权重模型的标杆，其性能可与 DeepSeek-V3-0324 和 Gemini-2.5-Flash 等前沿模型相媲美。通过将 CTF 风格的任务定义为可执行智能代理学习的基准，CTF-Dojo 证明了基于执行的训练信号不仅有效，而且在不依赖昂贵专有系统的情况下推动高性能机器学习代理发展方面具有关键作用。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决大规模、可扩展且可执行的训练环境稀缺的问题，这种环境对于训练具备验证反馈机制的大型语言模型（LLMs）至关重要。特别是在软件工程和CTF类型任务中，缺乏可复现且容器化的训练环境，限制了更强大机器学习代理的发展。
关键思路

论文提出了一种新的大规模可执行训练环境CTF-Dojo，结合自动化构建管道CTF-Forge，能够将公开的CTF挑战转化为可扩展、可复现的训练数据。这种方法减少了人工配置时间，同时通过高质量的执行轨迹训练LLMs，显著提升了模型在CTF相关任务上的表现。
其它亮点

1. CTF-Dojo包含658个Docker容器化的CTF挑战，保证了可复现性。 2. CTF-Forge可在几分钟内将公开CTF资源转化为可执行环境，显著降低人工配置成本。 3. 仅使用486条高质量训练轨迹，训练出的32B模型在多个基准上达到31.9% Pass@1，媲美DeepSeek和Gemini。 4. 实验设计聚焦于执行验证反馈，强调训练信号的有效性。 5. 项目为开源社区提供了可扩展的训练平台，推动未来研究。
相关研究

1. InterCode: A Benchmark for Code Generation with Execution Feedback (2022) 2. Code Llama: Open Foundation Models for Code (2023) 3. AlphaCode: Training a Language Model to Compete in Programming Contests (2022) 4. DeepSeek V3: Scaling Large Language Models with Hybrid Mixture-of-Experts (2024) 5. Gemini: A Family of Highly Capable Multimodal Models (2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问