How to Train Data-Efficient LLMs

2024年02月15日
  • 简介
    本文研究了大型语言模型(LLMs)的数据高效预训练方法,即旨在优化模型质量和训练资源/数据消耗的 Pareto 前沿的技术。研究人员探讨了基于(i)昂贵的数据质量估计和(ii)在特征空间中最大化覆盖率和多样性的数据选择程序所涉及的权衡。第一种技术 Ask-LLM 利用经过指导的 LLM 的零-shot 推理能力直接评估训练样本的质量。为了达到覆盖率的目标,我们提出了密度采样,该方法模拟数据分布以选择多样化的样本。在对 19 种采样器的比较中,涉及数百个评估任务和预训练运行,我们发现 Ask-LLM 和 Density 是各自类别中最好的方法。覆盖率采样可以恢复整个数据集的性能,而使用 Ask-LLM 数据训练的模型始终优于全数据训练 - 即使我们拒绝了原始数据集的 90%,也可以收敛速度提高高达 70%。
  • 图表
  • 解决问题
    本文研究如何通过数据选择和采样的方式来提高预训练大型语言模型的效率和性能。
  • 关键思路
    文章提出了两种数据选择和采样的方法:Ask-LLM和Density sampling。其中Ask-LLM利用了instruction-tuned LLM的zero-shot reasoning能力来直接评估训练样本的质量,而Density sampling则通过建模数据分布来选择多样性的样本。实验结果表明,这两种方法能够在各自的领域内取得最佳效果,并且在数据量减少的情况下,Ask-LLM能够比使用全部数据训练的模型表现更好,而Density sampling则可以恢复全部数据的性能。
  • 其它亮点
    实验设计了19种采样方法进行对比,验证了Ask-LLM和Density sampling的有效性。实验结果表明,使用Ask-LLM的数据训练的模型在减少90%数据量的情况下仍能表现优异,并且训练速度提高了70%。文章还探讨了数据选择和采样方法的优缺点,并提出了未来研究的方向。
  • 相关研究
    最近的相关研究包括:《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》、《Reformer: The Efficient Transformer》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论