WaveCoder: Widespread And Versatile Enhanced Instruction Tuning with Refined Data Generation

2023年12月20日
  • 简介
    最近的研究表明,在对高质量指令数据集进行微调后,生成的模型可以获得令人印象深刻的能力,以解决各种任务。然而,现有的指令数据生成方法常常会产生重复数据,并且无法对数据质量进行足够的控制。在本文中,我们通过将指令数据分类为4个与代码相关的任务,扩展了指令微调的泛化性,并提出了一种基于LLM生成器鉴别器数据处理框架,从开源代码生成多样化、高质量的指令数据。因此,我们介绍了CodeOcean数据集,该数据集包括4个通用的代码相关任务的20,000个指令实例,旨在增强指令微调的有效性并提高微调模型的泛化能力。随后,我们提出了WaveCoder,这是一种经过微调的Code LLM,具有广泛和多功能的增强指令微调功能。该模型专门设计用于增强代码语言模型(LLMs)的指令微调。我们的实验表明,Wavecoder模型在相同微调规模下在不同的代码相关任务上表现出更好的泛化能力,而且在以前的代码生成任务中表现出高效率。因此,本文对指令数据生成和微调模型领域做出了重要贡献,为提高代码相关任务的性能提供了新的见解和工具。
  • 图表
  • 解决问题
    论文旨在解决指令数据生成中存在的数据重复和质量控制不足的问题,提出一种基于LLM的生成-判别器数据处理框架,生成高质量、多样化的指令数据集CodeOcean,以增强LLM的fine-tuning和泛化能力。
  • 关键思路
    论文的关键思路是将指令数据分类为4个与代码相关的任务,提出基于LLM的Generator-Discriminator数据处理框架,生成高质量、多样化的指令数据集CodeOcean,并设计WaveCoder模型进行fine-tuning和泛化能力增强。
  • 其它亮点
    论文提出的CodeOcean数据集包含4个与代码相关的任务,共计20,000个指令实例,用于增强LLM的fine-tuning和泛化能力;WaveCoder模型在多个代码相关任务上表现出色,具有高效性和泛化能力强的特点;论文提供了新的指令数据生成工具和思路,对指令数据生成和fine-tuning模型的研究具有重要意义。
  • 相关研究
    最近的相关研究包括:《CodeBERT: A Pre-Trained Model for Programming and Natural Language Processing》、《CodeGPT: Generative Pre-training of Deep Transformers for Programmable Neural Networks》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问