OpenCodeInterpreter: Integrating Code Generation with Execution and Refinement

向作者提问

NEW

简介

大型语言模型的引入显著推动了代码生成的发展。然而，开源模型通常缺乏像GPT-4代码解释器这样先进系统的执行能力和迭代改进能力。为了解决这个问题，我们引入了OpenCodeInterpreter，这是一系列开源代码系统，旨在生成、执行和迭代改进代码。OpenCodeInterpreter支持Code-Feedback，这是一个包含68K多轮交互的数据集，它集成了执行和人类反馈，用于动态代码改进。我们对OpenCodeInterpreter进行了全面评估，包括人类评估、MBPP和EvalPlus的增强版本等关键基准测试，结果表明其表现出色。值得注意的是，OpenCodeInterpreter-33B在HumanEval和MBPP的平均值（以及增强版本）上达到了83.2（76.4）的准确率，与GPT-4的84.2（76.2）相当，并通过从GPT-4合成的人类反馈进一步提高到91.6（84.6）。OpenCodeInterpreter弥合了开源代码生成模型与GPT-4代码解释器等专有系统之间的差距。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决开源代码生成模型和专有系统之间的差距问题，提出了一种名为OpenCodeInterpreter的开源代码系统，旨在生成、执行和迭代改进代码。
关键思路

OpenCodeInterpreter集成了执行和人类反馈，实现了动态代码改进，通过Code-Feedback数据集进行支持，经过全面评估，在HumanEval、MBPP等关键基准测试中表现出色，接近GPT-4 Code Interpreter的性能。
其它亮点

OpenCodeInterpreter是一种开源代码系统，旨在生成、执行和迭代改进代码，集成了执行和人类反馈，实现了动态代码改进，通过Code-Feedback数据集进行支持。论文中进行了全面的实验评估，使用了多个基准测试数据集，并且在多个基准测试中表现出色。论文还提出了一种名为EvalPlus的增强版本，可以进一步提高评估的准确性。
相关研究

最近在这个领域中，还有一些相关的研究，如GPT-4 Code Interpreter等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问