AI热门论文

OpenDevin: An Open Platform for AI Software Developers as Generalist Agents

2024年07月23日

软件是我们人类拥有的最强大的工具之一；它允许熟练的程序员以复杂和深刻的方式与世界互动。同时，由于大型语言模型（LLMs）的改进，AI代理与周围环境的互动和影响也得到了快速发展。在本文中，我们介绍了OpenDevin，这是一个用于开发强大而灵活的AI代理的平台，这些代理与人类开发人员以类似的方式与世界互动：通过编写代码、与命令行交互和浏览网络。我们描述了该平台如何允许实现新的代理、安全地与沙盒环境进行代码执行的交互、多个代理之间的协调以及评估基准的整合。基于我们目前整合的基准，我们对15个具有挑战性的任务进行了代理的评估，包括软件工程（例如SWE-Bench）和浏览网络（例如WebArena），等等。OpenDevin采用宽松的MIT许可证发布，是一个跨学术界和工业界的社区项目，拥有来自160多个贡献者的1.3K个贡献，并将不断改进。

SoftEng

AI

PDF

解读

Integrating AI Tutors in a Programming Course

Alberto Krone Martins ,

Cristina Videira Lopes

2024年07月14日

RAGMan是一种由LLM驱动的辅导系统，可以支持多种特定课程和作业的AI辅导员。 RAGMan利用检索增强生成（RAG）以及严格的指令，确保AI辅导员的响应与学生问题的对齐。通过使用RAGMan的AI辅导员，学生可以在不直接获取解决方案的情况下获得特定作业分配的帮助，同时还可以提出一般的编程相关问题。本文介绍了RAGMan作为选修编程课程的可选资源时，455名学生与AI辅导员的互动、学生的反馈以及比较成绩分析。总体而言，约一半的学生与AI辅导员互动，绝大多数互动都是合法的作业问题。当学生提出问题在预期范围内时，AI辅导员的准确响应率达到98％。在使用AI辅导员的学生中，78％报告称辅导员对他们的学习有帮助。除了AI辅导员提供有价值的建议的能力外，学生报告称赞它们促进了一个没有评判的安全学习环境。

Symbolic

AI

HCI

PDF

解读

PyBench: Evaluating LLM Agent on various real-world coding tasks

2024年07月23日

LLM Agent配备了一个代码解释器，能够自动解决现实世界中的编码任务，如数据分析和图像编辑。然而，现有的基准主要集中在简单的任务上，例如完成几行代码，或者在存储库级别上进行极其复杂和具体的任务，这两者都不能代表各种日常编码任务。为了填补这一空白，我们介绍了PyBench，这是一个涵盖五个主要类别的现实世界任务的基准，涵盖了10多种文件类型。给定高级用户查询和相关文件，LLM Agent需要通过代码解释器进行一些转换来推理和执行Python代码，然后再做出正式响应以满足用户的需求。成功解决PyBench中的任务需要对各种Python包的全面理解，优秀的推理能力以及将执行的代码的反馈纳入其中的能力。我们的评估表明，目前的开源LLM在这些任务上面临困难。因此，我们对四种数据集进行了分析和实验，证明了PyBench需要综合能力。我们的Fine-tuned 8B大小的模型：PyLlama3在PyBench上取得了令人兴奋的表现，超过了许多33B和70B大小的模型。我们的基准测试、训练数据集和模型都可以在以下网址找到：\href{https://github.com/Mercury7353/PyBench}{https://github.com/Mercury7353/PyBench}。

SoftEng

AI

PDF

解读

SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering

Carlos E. Jimenez ,

Alexander Wettig ,

2024年05月06日

语言模型（LM）代理程序越来越多地被用于自动化数字环境中的复杂任务。就像人类受益于强大的软件应用程序（例如集成开发环境）一样，在软件工程等复杂任务中，我们认为LM代理代表了一类具有自己需求和能力的终端用户，并且会受益于专门构建的软件接口。我们研究了接口设计如何影响语言模型代理的性能。作为这项探索的结果，我们介绍了SWE-agent：一个系统，可以帮助LM代理自主使用计算机来解决软件工程任务。SWE-agent的自定义代理-计算机接口（ACI）显著增强了代理程序创建和编辑代码文件、浏览整个代码库以及执行测试和其他程序的能力。我们在SWE-bench和HumanEvalFix上评估了SWE-agent，在两者上都达到了最先进的性能，分别为12.5%和87.7%的一次通过率，远远超过以前使用非交互式LM实现的最先进水平。最后，我们提供了有关ACI设计如何影响代理程序行为和性能的见解。

SoftEng

AI

NLP

PDF

解读

Generative AI in Evidence-Based Software Engineering: A White Paper

Mattel Esposito ,

2024年07月24日

背景：在不到一年的时间里，从业者和研究人员见证了生成人工智能的迅速和广泛实施。从业者和研究人员每日提出的新模型的可用性使得快速采用成为可能。文本生成人工智能的能力使得全球研究人员能够探索新的生成场景，简化和加快所有耗时的文本生成和分析任务。动机：我们领域的出版物数量呈指数增长，数字图书馆的信息获取能力增强，使得进行系统文献综述和映射研究成为一项不受努力和时间限制的任务。基于这个挑战，我们调查并设想了生成人工智能在循证软件工程中的作用。未来方向：基于我们目前的调查，我们将跟进这个设想，创建并经验证一套全面的模型，以有效支持循证软件工程研究人员。

SoftEng

PDF

解读

Path-optimal symbolic execution of heap-manipulating programs

Pietro Braione ,

Giovanni Denaro

2024年07月23日

符号执行是许多程序分析和测试生成技术的核心。传统的对数值输入程序的符号执行具有分叉的特性，即分叉出与分析程序路径数相同的分析轨迹，这种特性在本文中被称为路径最优性。相反，当前符号执行堆操作程序的方法未能满足这种特性，从而导致路径爆炸效应，严重影响分析的效率。本文介绍了POSE（路径最优符号执行），一种符号执行算法，最初针对堆操作程序实现了路径最优性。我们为一种小型但具有代表性的面向对象编程语言形式化了POSE算法，并将该形式化实现为原型符号执行器，以实验算法对以数据结构为输入的样例程序的效果。我们的实验提供了初步的经验证据，证明了POSE在改进符号执行堆操作程序的现有技术方面的潜力。

SoftEng

cs.LO

D.2.4; D.2.5

PDF

解读

Patched RTC: evaluating LLMs for diverse software development tasks

Asankhaya Sharma

2024年07月23日

本文介绍了一种新的评估技术——Patched Round-Trip Correctness（Patched RTC），该技术可应用于各种不同的软件开发任务，特别是“外部循环”活动，如修复错误、代码审查和文档更新。Patched RTC将原始的Round-Trip Correctness方法扩展到任何LLM和下游任务，提供了一个自我评估的框架，可以测量模型响应的一致性和鲁棒性，无需人工干预。研究表明，Patched RTC分数与任务特定的准确度指标之间存在相关性，因此可以作为开放领域任务评估中LLM作为评判者范例的替代方案。我们在一个名为patchwork的开源框架中实现了Patched RTC，允许在各种补丁流中进行透明的评估。通过比较不同软件开发任务中GPT-3.5和GPT-4模型的实验，研究发现Patched RTC有效地区分了模型性能和任务难度。本文还探讨了一致性提示对提高模型准确性的影响，建议Patched RTC可以指导复杂软件开发工作流程的提示改进和模型选择。

SoftEng

AI

PDF

解读

Scikit-fingerprints: easy and efficient computation of molecular fingerprints in Python

Jakub Adamczyk ,

2024年07月18日

在这项工作中，我们介绍了一个名为\textit{scikit-fingerprints}的Python包，用于计算分子指纹在化学信息学中的应用。我们的库提供了一个行业标准的scikit-learn接口，允许直观的使用和与机器学习管道的轻松集成。它还进行了高度优化，具有并行计算功能，可以有效地处理大型分子数据集。目前，\textit{scikit-fingerprints}是Python生态系统中功能最丰富的库，提供了超过30种分子指纹。我们的库简化了基于分子指纹的化学信息学任务，包括分子性质预测和虚拟筛选。它也是灵活的、高效的，完全开源的。

SoftEng

ML

PDF

解读

APIGen: Automated Pipeline for Generating Verifiable and Diverse Function-Calling Datasets

Jianguo Zhang ,

2024年06月26日

本文介绍了一种名为APIGen的自动数据生成流水线，旨在为函数调用应用程序合成可验证的高质量数据集。我们利用APIGen和21个不同类别的3,673个可执行API来以可扩展和结构化的方式生成多样化的函数调用数据集。我们的数据集中的每个数据都经过了三个层次的验证：格式检查、实际函数执行和语义验证，确保其可靠性和正确性。我们展示了使用我们精心策划的数据集训练的模型，即使只有7B个参数，也可以在Berkeley Function-Calling Benchmark上实现最先进的性能，优于多个GPT-4模型。此外，我们的1B模型表现出色，超越了GPT-3.5-Turbo和Claude-3 Haiku。我们发布了一个包含60,000个高质量条目的数据集，旨在推动函数调用代理领域的发展。该数据集可在Huggingface上获得：https://huggingface.co/datasets/Salesforce/xlam-function-calling-60k，以及项目主页：https://apigen-pipeline.github.io/。

NLP

AI

ML

PDF

解读

Improving the Learning of Code Review Successive Tasks with Cross-Task Knowledge Distillation

Oussama Ben Sghaier ,

Houari Sahraoui

2024年02月03日

代码审查是软件开发中的基本过程，对确保代码质量和减少错误和漏洞的发生起着至关重要的作用。然而，代码审查可能会很复杂、主观和耗时。质量估计、评论生成和代码优化是该过程的三个关键任务，它们的自动化在文献中通常使用不同的方法分别解决。特别是，最近的研究集中于微调预训练语言模型以帮助代码审查任务，每个任务都被单独考虑。我们认为这些任务是相互关联的，它们的微调应该考虑到这种相互关联。在本文中，我们介绍了一种新的深度学习架构，名为DISCOREV，它采用跨任务知识蒸馏来同时解决这些任务。在我们的方法中，我们利用一系列模型来增强评论生成和代码优化模型。评论生成模型的微调受到代码优化模型的指导，而代码优化模型的微调受到质量估计模型的指导。我们使用两种策略来实现这种指导：基于反馈的学习目标和嵌入对齐目标。我们通过与基于独立训练和微调的最先进方法进行比较来评估DISCOREV。我们的结果表明，我们的方法产生了更好的审查评论，根据BLEU分数来衡量，以及更准确的代码优化，根据CodeBLEU分数来衡量。

SoftEng

PDF

解读