SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning

简介

大型语言模型（LLMs）在提供适当的自然语言提示时，有望解决各种任务。然而，提示通常会导致模型的预测精度较低，与使用充足的训练数据微调模型相比。另一方面，虽然在任务特定数据上微调LLMs通常会提高其性能，但并非所有任务都有丰富的标注数据。先前的研究探索了从最先进的LLMs生成任务特定数据，并使用这些数据微调较小的模型，但这种方法需要访问正在训练的语言模型之外的语言模型，这引入了成本、可扩展性挑战和与不断依赖更强大的LLMs相关的法律障碍。为了应对这些问题，我们提出了SELF-GUIDE，这是一个多阶段机制，在这个机制中，我们从学生LLM中合成任务特定的输入输出对，然后使用这些输入输出对来微调学生LLM本身。在我们对自然指令V2基准测试的实证评估中，我们发现SELF-GUIDE显著提高了LLM的性能。具体而言，在基准测试的度量标准中，我们报告分类任务的绝对改进约为15％，生成任务的绝对改进约为18％。这揭示了自我合成数据引导LLMs成为任务特定专家的前景，而不需要任何外部学习信号。
图表
解决问题

文章旨在解决使用自我合成数据指导大型语言模型（LLMs）进行微调的问题，以提高其在特定任务上的性能，而无需依赖于其他更强大的语言模型。
关键思路

SELF-GUIDE是一种多阶段机制，通过从学生LLM中合成特定任务的输入-输出对，然后使用这些输入-输出对对学生LLM本身进行微调，以引导LLMs成为特定任务的专家。
其它亮点

实验结果表明，SELF-GUIDE显著提高了LLMs在自然语言指令V2基准测试中的性能，分类任务的绝对改进约为15％，生成任务的绝对改进约为18％。此外，SELF-GUIDE消除了依赖于其他更强大的语言模型的成本、可扩展性挑战和法律障碍。
相关研究

最近的相关研究包括使用其他语言模型生成任务特定数据的方法。例如，GPT-3可以用于生成特定于任务的数据，以用于微调小型模型。

SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning

评论