- 简介本文介绍了一种使用AI反馈(RLAIF)的强化学习框架,以提高轻量级(<1B参数)LLMs的代码生成能力。我们特别关注需要编写适当API调用的代码生成任务,由于LLMs中存在幻觉问题,这是具有挑战性的。我们的框架通过专门的提示策略从更大的LLM(例如GPT-3.5)中提取AI反馈,并使用这些数据来训练奖励模型,以实现更好的对齐效果。我们在大猩猩数据集上运行实验,并仔细评估模型生成的代码的质量,包括AST、ROUGE和Code-BLEU等各种指标,并开发了一个计算其可执行率的流水线,以确保准确性。我们的方法显著提高了微调LLM基线的性能,实现了4.5%的可执行率提高。值得注意的是,使用RLAIF训练的780M参数的较小LLM模型超过了具有7B参数的更大的微调基线,实现了1.0%更高的代码可执行率。
- 图表
- 解决问题提高轻量级语言模型的代码生成能力
- 关键思路通过从更大的语言模型中提取AI反馈,使用RLAIF框架训练奖励模型,从而提高轻量级语言模型的代码生成能力
- 其它亮点使用Gorilla数据集评估模型生成的代码质量,开发了计算可执行性率的流水线,实验结果表明RLAIF显著提高了代码的可执行性率,比7B参数的基线模型表现更好
- 近期的相关研究包括使用RLAIF框架提高文本摘要和数学推理的能力等,但本文是首次应用RLAIF框架提高轻量级语言模型的代码生成能力
沙发等你来抢
去评论
评论
沙发等你来抢