The Unreasonable Effectiveness of Easy Training Data for Hard Tasks

2024年01月12日
  • 简介
    本文探讨了一个问题:当难以标记正确的训练数据被定义为难训练数据时,我们如何训练模型在难测试数据上表现良好?这个问题被称为可扩展的监督问题,并随着语言模型的不断改进而受到越来越多的关注。本文的一个惊人结论是,当前的语言模型通常能够从易到难的数据中相对较好地泛化,甚至表现和在难数据上训练的“神器”模型一样好。我们使用了简单的训练方法,如上下文学习、线性分类器头和 QLoRA,对七种不同的数据点难度进行了实证研究,包括六种经验丰富的人类难度测量(如年级水平)和一种基于模型的测量(基于损失)。此外,我们表明,即使最关心模型在难数据上的表现,收集和训练易数据可能比收集和训练难数据更好,因为难数据通常更嘈杂和成本更高。我们的实验使用了大小高达70b的开放模型和四个公开可用的问答数据集,其中问题的难度范围从第三年级的科学问题到大学水平的STEM问题和常识性问答。我们得出结论,对于所研究的任务,LMs中从易到难的泛化能力令人惊讶地强,这表明可扩展的监督问题可能比以前想象的更容易。我们的代码可在https://github.com/allenai/easy-to-hard-generalization 上找到。
  • 图表
  • 解决问题
    easy-to-hard generalization in language models
  • 关键思路
    current language models often generalize relatively well from easy to hard data
  • 其它亮点
    Demonstrated easy-to-hard generalization using simple training methods on seven different measures of datapoint hardness, including six empirically diverse human hardness measures and one model-based measure. Experiments used open models up to 70b in size and four publicly available question-answering datasets. Even if one cares most about model performance on hard data, it can be better to collect and train on easy data rather than hard data. Code is available at https://github.com/allenai/easy-to-hard-generalization
  • 相关研究
    No specific related work mentioned in the abstract.
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问