Automated Data Curation for Robust Language Model Fine-Tuning

简介

大型语言模型已成为序列到序列文本生成任务的事实标准，但对于专业任务/领域，预训练的语言模型缺乏产生准确或格式良好的响应的特定能力。监督微调通过训练一个示例提示和目标响应的数据集来专门化语言模型，但现实世界的数据往往是嘈杂的。虽然存在许多微调算法，但在这里，我们考虑了一种“数据为中心的人工智能”视角来微调语言模型，研究如何“系统地”策划训练数据集以改进通过“任何”微调算法产生的语言模型。我们引入了一个自动化的数据策划流程CLEAR（基于置信度的LLM评估和纠正），用于指令微调数据集，可以与任何语言模型和微调程序一起使用。CLEAR估计哪些训练数据质量低，并进行过滤或纠正。自动识别要过滤或纠正的数据是通过基于语言模型的置信度估计完成的，以确保仅进行自信的数据修改。与现有的数据策划技术不同，CLEAR是一个全面的框架，可以在不进行额外微调计算的情况下改进数据集（和训练模型输出）。我们不假设访问比正在微调的模型更强的语言模型（例如，依赖于GPT-4微调GPT-3.5），以查看CLEAR是否可以显着提高任何语言模型的能力。实验表明，CLEAR在许多数据集和模型（如GPT-3.5和Llama2）上始终改善微调模型的性能。
图表
解决问题

本论文旨在解决在特定任务/领域中，预训练语言模型（LLM）的fine-tuning过程中存在的数据噪声问题，提出了一种基于数据的方法进行自动化数据筛选和纠正，以提高fine-tuned模型的性能。
关键思路

论文提出了一种自动化数据筛选和纠正的方法CLEAR，通过LLM的置信度估计自动识别低质量的训练数据并进行过滤或纠正，从而改善fine-tuned模型的性能。
其它亮点

CLEAR是一个全面的框架，可以在不进行额外fine-tuning计算的情况下改善数据集（和训练模型的输出）。实验结果表明，CLEAR在许多数据集和模型（如GPT-3.5和Llama2）上都能提高fine-tuned模型的性能。
相关研究

相关的研究包括使用其他方法进行数据筛选和纠正，以及探索如何在fine-tuning过程中使用更强大的LLM进行改进。例如，有一些研究使用对抗性样本来提高LLM的鲁棒性。

Automated Data Curation for Robust Language Model Fine-Tuning

评论