LIMIT: Less Is More for Instruction Tuning Across Evaluation Paradigms

简介

传统上，大型语言模型通常是在大型指令数据集上微调的。然而，最近的研究表明，小型、高质量的数据集已经足以实现通用指令跟随。由于对LLM评估方法的快速分歧，这种微调最佳实践的缺乏共识部分是由于不断分歧的方法。在这项研究中，我们询问是否少量多样化的微调样本可以提高传统基于困惑度的NLP基准和基于模型的开放式评估的性能。我们在各种大小的指令微调数据集上微调开源MPT-7B和MPT-30B模型，这些数据集的样本数量从1k到60k不等。我们发现，1k-6k指令微调样本的子集足以在传统的NLP基准和基于模型的评估上实现良好的性能。最后，我们展示了混合教科书风格和开放式QA微调数据集可以优化两种评估范式的性能。
图表
解决问题

论文旨在研究使用少量多样的微调样本是否能够提高大型语言模型的性能，并且在传统的NLP基准测试和基于模型的开放式评估中得到验证。
关键思路

使用1k-6k个微调样本的子集就足以在传统NLP基准测试和基于模型的评估中获得良好的性能。混合教科书式和开放式QA微调数据集可以优化性能。
其它亮点

实验使用了开源的MPT-7B和MPT-30B模型，并且使用了不同大小的微调数据集。混合教科书式和开放式QA微调数据集可以优化性能。
相关研究

最近的相关研究包括：《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》、《Few-shot Learning of Neural Networks from Scratch by Multi-modal Meta-learning》、《The Effectiveness of Data Augmentation in Image Classification using Deep Learning》等。

LIMIT: Less Is More for Instruction Tuning Across Evaluation Paradigms

评论