
新智元报道
新智元报道
【新智元导读】世界首个AI程序员Devin诞生不足一个月,普林斯顿就推出了全新的「开源版本」——SWE-agent!在GPT-4的加持下,debug只需93秒,准确率几乎不相上下。



矩阵操作bug,神速解决
下面就是一个SWE-agent如何解决GitHub问题的示例。 这是sympy项目中的一个问题,是SWE-bench的一个实例。 用户报告了这个问题:矩阵操作的Insert时,产生了一些不符合预期的输出。 
SWE-agent是怎么解决这个问题的呢? 首先,它重现了报告的bug,把bug的代码复制到了一个名为「reproduce_bug」的文件中。 运行后,果然出现了和报告中一样的问题—— 
确认问题之后,它在存储库中搜索了「col_insert」函数,看看是在哪里被定义的。很快SWE-agent就发现了是在common.py里。 打开文件后,它找到了一个名为「_eval_col_insert」的函数,认为这可能是关键所在。 在分析代码后,SWE-agent发现,问题就是出在了矩阵操作的索引上! 
于是,它对这个函数进行了修改。 再次运行代码,问题完美解决了!



在项目主页中,还有一个可以自主操作的演示,感兴趣的可以自主尝试体验修改bug。

传送门:https://swe-agent.com/demo
「开源Devin」,软件工程护城河不存在了
根据研究者John Yang,也是SWE-bench一作介绍,SWE-agent的工作原理是与专门的终端交互,它可以: 

- 打开、滚动和搜索文件
- 编辑特定行,并自动进行语法检查









全新的ACI设计
为此,研究人员专门为大语言模型设计了简洁的指令和反馈格式——智能体-计算机接口(ACI),从而让模型能够更轻松地浏览代码仓库、查看、编辑和运行代码文件。 正如良好的提示设计对于充分发挥语言模型的潜力至关重要一样,优秀的ACI设计对于使用AI智能体时能够取得更佳效果也是关键。 在设计代理计算机接口过程中,研究人员发现了几个极其有用的功能,并将它们集成到了SWE-agent中: 1. 增加了一个在发出编辑命令时运行的代码检查器,如果代码语法不正确,则阻止编辑命令执行。 2. 提供了一个特制的文件查看器,并为文件编辑器添加了滚动查看和文件内搜索的功能。结果显示,这个查看器在每次只展示100行代码时效果最佳。 3. 提供了一个特制的全目录字符串搜索命令。研究发现,简洁地列出每个含有匹配项的文件非常重要,因为给模型提供每个匹配项的更多的上下文信息会使其感到困惑。 4. 当某个命令执行后没有任何输出时,会返回一条消息:「你的命令已成功执行,但没有产生任何输出。」 
总结来说,通过智能体计算机接口(ACI),SWE-agent让LLM有了与专属的Docker容器互动,实现浏览、搜索、编辑和执行代码的功能,从而极大地拓宽了LLM在软件开发领域的应用范围。 智能体工作流

智能体工作流
推理
python run.py --model_name gpt4 \
--data_path https://github.com/pvlib/pvlib-python/issues/1603 --config_file config/default_from_url.yaml
接下来,要实现SWE-bench上的推理,需要在SWE-bench Lite上运行SWE-agent并生成补丁:
python run.py --model_name gpt4 \
--per_instance_cost_limit 2.00 \
--config_file ./config/default.yaml
如果要运行SWE-bench中的单个问题,则需使用--instance_filter选项:
python run.py --model_name gpt4 \
--instance_filter marshmallow-code__marshmallow-1359
评估
评估生成的拉取请求方法如下: cd evaluation/
./run_eval.sh <predictions_path>
需要注意的是,这个步骤仅适用于SWE-bench问题集。
作者介绍
就在下周公布,SWE-agent论文就会公开。 这项研究中两位核心作者是John Yang和Carlos E. Jimenez。 John Yang John Yang目前是普林斯顿大学的研究助理,导师是Karthik Narasimhan。他曾在加州大学伯克利分校取得了电子工程和计算机学士学位。 他本人对语言基础和交互、LLM的基准测试、软件工程和代码生成感兴趣。 Carlos E. Jimenez Carlos E. Jimenez是普林斯顿的博士生,导师是Karthik Narasimhan教授。 他研究的是自然语言处理的人工智能和ML,研究兴趣包括代码语言模型,以及面向任务的对话。 Carlos曾在犹他大学获得了计算机科学学士学位,导师是Ellen Riloff。 编码的未来掌握在AI手中?
无可否认,AI正逐渐改变技术行业的运作方式。 不管是Devin、Devika,还是OpenDevin等等,都在软件工程领域有着出色的表现。 在这里,AI不再仅仅是软件工程师的辅助工具,而是开始承担起了工程师的角色,完成过去认为只有人类才能完成的任务。 那么,这是否意味着AI已经不仅仅是一个工具,而是成为了工程过程中的合作伙伴? 更进一步的,AI是否真的能够独立编写安全的代码?未来,编程是否将完全交由AI来掌控? 可以说,这些问题不仅关乎技术的进步,也触及到我们对于AI角色和能力认知的深层次思考。 Devin:AI工程的变革者
今年3月12日,一家叫才成立不到2个月的10人初创公司,就给了全世界亿点点震撼。 他们发布的世界上第一位AI程序员——Devin,不仅掌握了全栈技能,能自主学习不熟悉的技术,端到端地构建和部署应用程序,自己改bug,甚至还能训练和微调自己的AI模型! 在SWE-bench上,Devin的表现远远超过Claude 2、Llama、GPT-4等选手,取得了13.86%的惊人成绩! 可以说,Devin并不仅仅是一款AI工具,而是一个能够独立完成软件工程任务的AI系统。 与以往AI工具不同的是,Devin能够规划并实施复杂的软件项目,这意味着AI现在能够扮演起工程师的角色。 除了编写代码外,Devin还能够处理程序中的错误,部署应用,乃至于训练新的AI模型。 OpenDevin:共创未来的愿景
就在发布当天,Devin的开源翻版——OpenDevin横空出世。 通过鼓励社区成员贡献代码和坚持开放标准的原则,OpenDevin致力于不断改进和增强AI在软件开发中的应用,使软件工程师能够更高效地完成编程任务。 Devika:开源社区的新星
受到Devin在AI软件工程领域开创性成就的激励,另一个开源项目——Devika也诞生了。 Devika是一个富有主动性的AI软件工程师,它能够理解人类的高级指令,把这些指令分解成具体步骤,搜集所需的信息,并据此编写代码来完成既定目标。 具体来说,Devika依托于Claude 3的强大能力,结合了先进的AI规划与编程技术,打造了一个开放给社区并由社区共同推动发展的平台。 Devika不仅仅是一个技术项目,它更是一个向全球开源贡献者发出的邀请,鼓励他们参与到AI创新的旅程中来,共同探索和定义AI技术的未来。 目前还无法代替人类
随着像Devin、Devika和OpenDevin这样的AI软件工程师的兴起,我们已经见证了AI在编程方面的巨大潜力。 这些AI不仅能够规划和执行复杂的工程任务,还能找出并修复漏洞,甚至负责整个项目的开发流程。 然而,当面对复杂的现有代码库并追求编写安全代码时,情况变得更加复杂。 编写安全的代码不仅要求代码无误,更重要的是要理解代码的广泛背景、可能的安全漏洞以及最新的安全研究和实践。 在这里,人类的监督仍然不可或缺。 虽然我们尚未达到AI能够完全取代软件工程师的阶段,但AI无疑正在改变技术领域的面貌和未来的走向。 在AI创新日新月异的今天,Devin、Devika和OpenDevin引发了我们对人工智能与人类之间关系的深思:我们是否应该将AI视为与人类相似的存在? 正如Ethan Mollick在「On the Necessity of Sin」中提出的,我们面临的是与AI合作共创软件工程未来的机遇,还是AI最终将取代人类角色的挑战? 答案可能在于我们对未来的设想,以及我们是否愿意采取一种开源的态度,强调透明度、开放性和协作精神。 参考资料: https://swe-agent.com/ https://github.com/princeton-nlp/SWE-agent https://news.opensauced.pizza/open-source-projects-that-are-gaining-steam-that-you-havent-heard-of/
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢