Self-play with Execution Feedback: Improving Instruction-following Capabilities of Large Language Models

简介

本文介绍了大语言模型（LLMs）的一个核心能力，即遵循自然语言指令。然而，如何自动构建高质量的训练数据以增强LLMs的复杂指令跟随能力，而不需要手动注释，这个问题仍未得到解决。本文提出了AutoIF，这是第一个可扩展和可靠的方法，用于自动生成指令跟踪训练数据。AutoIF将指令跟踪数据质量的验证转化为代码验证，要求LLMs生成指令，相应的代码来检查指令响应的正确性，以及单元测试样本来验证代码的正确性。然后，基于执行反馈的拒绝抽样可以生成用于监督微调（SFT）和来自人类反馈的强化学习（RLHF）训练的数据。当应用于自对准和强到弱蒸馏设置中的顶级开源LLMs Qwen2和LLaMA3时，AutoIF在三种训练算法SFT、离线DPO和在线DPO中实现了显着的改进。我们的代码可在https://github.com/QwenLM/AutoIF公开获取。
图表
解决问题

AutoIF试图解决如何自动构建高质量的训练数据以增强LLM的复杂指令跟随能力，而不需要手动注释的问题。
关键思路

AutoIF是第一个可扩展和可靠的方法，用于自动生成指令跟随训练数据。它将指令数据质量的验证转化为代码验证，需要LLMs生成指令、相应代码以检查指令响应的正确性，并使用单元测试样本验证代码的正确性，然后使用基于执行反馈的拒绝抽样生成监督微调和来自人类反馈的强化学习的数据。
其它亮点

论文的实验在自对齐和强到弱蒸馏设置下，应用于顶级开源LLMs Qwen2和LLaMA3，针对三种训练算法（SFT，Offline DPO和Online DPO），AutoIF实现了显著的改进。AutoIF的代码公开在GitHub上。
相关研究

最近的相关研究包括使用预训练模型的指令跟随和基于强化学习的对话生成。

Self-play with Execution Feedback: Improving Instruction-following Capabilities of Large Language Models

评论