PanGu-Coder2: 利用排序反馈增强代码的大型语言模型

PanGu-Coder2: Boosting Large Language Models for Code with Ranking Feedback

解决问题：本论文旨在提高预训练大型语言模型在代码生成任务上的性能，提出了一种新的框架RRTF，以及在此框架下的模型PanGu-Coder2。该论文并非解决全新问题，而是在当前大型语言模型领域的研究基础上，提出了一种新的思路。

关键思路：论文提出的关键思路是RRTF框架，该框架通过排名反馈机制提高了预训练大型语言模型在代码生成任务上的性能。相比之前的研究，该框架提出了一种新的思路，能够有效地提高模型的性能。

其他亮点：该论文使用了OpenAI HumanEval、CoderEval和LeetCode等数据集进行实验，证明了PanGu-Coder2在各项指标上均优于之前的Code LLMs。此外，论文未提及是否有开源代码。

关于作者：本文的主要作者为沈博、张佳鑫和陈泰宏，分别来自华为、中科院和北大。

相关研究：近期其他相关的研究包括：《CodeBERT: A Pre-Trained Model for Programming and Natural Language Processing》（Zhangyin Feng等，Microsoft Research Asia）、《CodeXGLUE: A Machine Learning Benchmark Dataset for Code Understanding and Generation》（Duyu Tang等，Microsoft Research Asia）、《GraphCodeBERT: Pre-training Code Representations with Graphs》（Weijie Zhao等，Microsoft Research Asia）等。这些研究均来自于微软亚洲研究院。

论文摘要：本文介绍了如何利用排名反馈框架（RRTF）有效地提升预训练大型语言模型（Code LLM）在代码生成任务上的性能。作者提出了一种名为PanGu-Coder2的模型，该模型在OpenAI HumanEval基准测试上取得了62.20%的@1通过率，并在CoderEval和LeetCode基准测试上表现出了比之前所有Code LLM都更好的性能。本文介绍了各种方法来提高预训练Code LLM的代码生成性能，如监督微调、指令微调、强化学习等。作者认为，该RRTF框架可以有效地提高Code LLM的性能。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

PanGu-Coder2: 利用排序反馈增强代码的大型语言模型

评论