- 简介本文介绍了CodeUltraFeedback,这是一个包含10,000个复杂指令的偏好数据集,可通过AI反馈来调整和对齐LLM与编码偏好。我们使用14个不同的LLM生成指令的响应,并使用LLM作为评判者和GPT-3.5按照五个编码偏好对其进行注释,生成数字和文本反馈。我们还提出了CODAL-Bench,这是一个用于评估LLM对这些编码偏好对齐的基准。我们的结果表明,通过使用CodeUltraFeedback的AI反馈数据,通过强化学习从AI反馈中对齐的CodeLlama-7B-Instruct,通过直接偏好优化(DPO)在CODAL-Bench上优于34B LLMs,验证了CodeUltraFeedback用于偏好调整的实用性。此外,我们展示了我们通过DPO对齐的CodeLlama模型相比未对齐的基础模型在HumanEval+上提高了功能正确性。因此,我们的贡献弥合了LLM编码偏好调整的差距,并为模型对齐和RLAIF提供了进一步的进展,以实现代码智能化。我们的代码和数据可在https://github.com/martin-wey/CodeUltraFeedback上获得。
- 图表
- 解决问题本论文旨在解决大型语言模型(LLMs)与用户编码偏好的对齐问题,提出了一个新的数据集和基准测试来评估LLMs的对齐性能。
- 关键思路CodeUltraFeedback是一个包含10,000个复杂指令的偏好数据集,用于通过AI反馈来调整和对齐LLMs的编码偏好。通过LLM作为评判者的方法,使用GPT-3.5对14个不同的LLMs生成响应,并根据五种编码偏好进行注释,提供数值和文本反馈。使用直接偏好优化(DPO)的强化学习从AI反馈(RLAIF)对齐的CodeLlama-7B-Instruct在CODAL-Bench上的表现优于34B LLMs,验证了CodeUltraFeedback用于偏好调整的实用性。
- 其它亮点该论文提出了一个新的数据集和基准测试来评估LLMs的对齐性能。使用LLM作为评判者的方法提供了数值和文本反馈。实验结果表明,CodeLlama-7B-Instruct在CODAL-Bench上的表现优于34B LLMs,且DPO对齐的CodeLlama模型在HumanEval+上的功能正确性得到了改善。研究者还提供了代码和数据集。
- 在这个领域中,最近的相关研究包括《GPT-3: Language Models are Few-Shot Learners》、《GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding》等。
沙发等你来抢
去评论
评论
沙发等你来抢