Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning

简介

尽管机器学习研究发展迅速，但相应的代码实现往往不可用，这使得研究人员难以重现结果或在前人工作基础上进一步开展研究，既耗时又费力。与此同时，近期的大型语言模型（LLMs）在理解科学文献和生成高质量代码方面表现出色。受此启发，我们提出了 PaperCoder，这是一个多代理 LLM 框架，能够将机器学习论文转化为功能性的代码仓库。PaperCoder 的运行分为三个阶段：规划阶段，它构建高层次的路线图，设计系统架构（附带图表），识别文件依赖关系，并生成配置文件；分析阶段，专注于解读具体的实现细节；以及生成阶段，在这一阶段会产出模块化且考虑依赖关系的代码。此外，每个阶段都通过一组专门设计的代理来实例化，这些代理能够在整个流水线中高效协作。随后，我们在机器学习论文的代码实现生成任务上对 PaperCoder 进行了评估，评估方式包括基于模型的评价和人工评价，其中人工评价特别邀请了原论文作者参与，并在有可用的情况下以作者发布的代码仓库作为基准真相。我们的实验结果表明，PaperCoder 在创建高质量、忠实于原论文的代码实现方面非常有效。此外，在最近发布的 PaperBench 基准测试中，PaperCoder 表现出显著优势，大幅超越了多个强大的基线方法。
图表
解决问题

论文试图解决机器学习研究中代码实现不可用的问题，导致结果难以复现和扩展。这是一个长期存在的问题，但通过结合LLMs的能力来自动化生成代码实现，提供了一种新的解决思路。
关键思路

关键思路是提出PaperCoder框架，利用多代理LLM协作完成从论文到代码的转化过程。该框架分为规划、分析和生成三个阶段，每个阶段由专门的代理执行特定任务。相比现有方法，PaperCoder能够自动生成高质量、模块化且依赖关系清晰的代码实现，显著降低了人工复现的成本。
其它亮点

论文设计了详尽的实验，包括模型评估和人类评价（特别是原作者参与）。此外，PaperCoder在PaperBench基准测试中表现优异，超越多个强基线模型。代码已开源，并附带配置文件和系统架构图，便于后续研究者参考和改进。未来可以探索更多领域（如生物信息学或自然语言处理）中的论文到代码转换。
相关研究

近期相关研究包括：1) CodeGen系列模型，专注于代码生成任务；2) InstructCoder，通过指令微调提升代码生成能力；3) Paper2Code，尝试将学术论文转化为伪代码；4) AlphaCode，在编程竞赛任务上展示了强大的代码生成能力。这些工作共同推动了AI辅助编程技术的发展，而PaperCoder则进一步拓展了其在科学文献领域的应用。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论