- 简介大型语言模型的引入显著推动了代码生成的发展。然而,开源模型通常缺乏像GPT-4代码解释器这样先进系统的执行能力和迭代改进能力。为了解决这个问题,我们引入了OpenCodeInterpreter,这是一系列开源代码系统,旨在生成、执行和迭代改进代码。OpenCodeInterpreter支持Code-Feedback,这是一个包含68K多轮交互的数据集,它集成了执行和人类反馈,用于动态代码改进。我们对OpenCodeInterpreter进行了全面评估,包括人类评估、MBPP和EvalPlus的增强版本等关键基准测试,结果表明其表现出色。值得注意的是,OpenCodeInterpreter-33B在HumanEval和MBPP的平均值(以及增强版本)上达到了83.2(76.4)的准确率,与GPT-4的84.2(76.2)相当,并通过从GPT-4合成的人类反馈进一步提高到91.6(84.6)。OpenCodeInterpreter弥合了开源代码生成模型与GPT-4代码解释器等专有系统之间的差距。
-
- 图表
- 解决问题本论文旨在解决开源代码生成模型和专有系统之间的差距问题,提出了一种名为OpenCodeInterpreter的开源代码系统,旨在生成、执行和迭代改进代码。
- 关键思路OpenCodeInterpreter集成了执行和人类反馈,实现了动态代码改进,通过Code-Feedback数据集进行支持,经过全面评估,在HumanEval、MBPP等关键基准测试中表现出色,接近GPT-4 Code Interpreter的性能。
- 其它亮点OpenCodeInterpreter是一种开源代码系统,旨在生成、执行和迭代改进代码,集成了执行和人类反馈,实现了动态代码改进,通过Code-Feedback数据集进行支持。论文中进行了全面的实验评估,使用了多个基准测试数据集,并且在多个基准测试中表现出色。论文还提出了一种名为EvalPlus的增强版本,可以进一步提高评估的准确性。
- 最近在这个领域中,还有一些相关的研究,如GPT-4 Code Interpreter等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流