Applying RLAIF for Code Generation with API-usage in Lightweight LLMs

2024年06月28日
  • 简介
    本文介绍了一种使用AI反馈(RLAIF)的强化学习框架,以提高轻量级(<1B参数)LLMs的代码生成能力。我们特别关注需要编写适当API调用的代码生成任务,由于LLMs中存在幻觉问题,这是具有挑战性的。我们的框架通过专门的提示策略从更大的LLM(例如GPT-3.5)中提取AI反馈,并使用这些数据来训练奖励模型,以实现更好的对齐效果。我们在大猩猩数据集上运行实验,并仔细评估模型生成的代码的质量,包括AST、ROUGE和Code-BLEU等各种指标,并开发了一个计算其可执行率的流水线,以确保准确性。我们的方法显著提高了微调LLM基线的性能,实现了4.5%的可执行率提高。值得注意的是,使用RLAIF训练的780M参数的较小LLM模型超过了具有7B参数的更大的微调基线,实现了1.0%更高的代码可执行率。
  • 图表
  • 解决问题
    提高轻量级语言模型的代码生成能力
  • 关键思路
    通过从更大的语言模型中提取AI反馈,使用RLAIF框架训练奖励模型,从而提高轻量级语言模型的代码生成能力
  • 其它亮点
    使用Gorilla数据集评估模型生成的代码质量,开发了计算可执行性率的流水线,实验结果表明RLAIF显著提高了代码的可执行性率,比7B参数的基线模型表现更好
  • 相关研究
    近期的相关研究包括使用RLAIF框架提高文本摘要和数学推理的能力等,但本文是首次应用RLAIF框架提高轻量级语言模型的代码生成能力
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论