Applying RLAIF for Code Generation with API-usage in Lightweight LLMs

简介

本文介绍了一种使用AI反馈（RLAIF）的强化学习框架，以提高轻量级（<1B参数）LLMs的代码生成能力。我们特别关注需要编写适当API调用的代码生成任务，由于LLMs中存在幻觉问题，这是具有挑战性的。我们的框架通过专门的提示策略从更大的LLM（例如GPT-3.5）中提取AI反馈，并使用这些数据来训练奖励模型，以实现更好的对齐效果。我们在大猩猩数据集上运行实验，并仔细评估模型生成的代码的质量，包括AST、ROUGE和Code-BLEU等各种指标，并开发了一个计算其可执行率的流水线，以确保准确性。我们的方法显著提高了微调LLM基线的性能，实现了4.5%的可执行率提高。值得注意的是，使用RLAIF训练的780M参数的较小LLM模型超过了具有7B参数的更大的微调基线，实现了1.0%更高的代码可执行率。
图表
解决问题

提高轻量级语言模型的代码生成能力
关键思路

通过从更大的语言模型中提取AI反馈，使用RLAIF框架训练奖励模型，从而提高轻量级语言模型的代码生成能力
其它亮点

使用Gorilla数据集评估模型生成的代码质量，开发了计算可执行性率的流水线，实验结果表明RLAIF显著提高了代码的可执行性率，比7B参数的基线模型表现更好
相关研究

近期的相关研究包括使用RLAIF框架提高文本摘要和数学推理的能力等，但本文是首次应用RLAIF框架提高轻量级语言模型的代码生成能力

Applying RLAIF for Code Generation with API-usage in Lightweight LLMs

评论