- 简介大型语言模型已经成为一种多功能工具,但是在应用到缺乏大量推理预算和大量域内训练集的任务时具有挑战性。本文明确了这些限制,并区分了四个重要变量:预训练预算(用于在目标域未知时进行训练),专业化预算(用于在目标域已知后进行训练),推理预算和域内训练集大小。在这些设置中,我们比较了机器学习文献中的不同方法。受推理成本的限制,我们找到了比训练非常大的基本变压器模型更好的替代方法。特别是,我们发现超网络和专家混合模型在具有大型预训练预算时具有更好的困惑度,而在具有大型专业化预算时,基于重要性采样数据集训练的小型模型更具吸引力。
-
- 图表
- 解决问题本文旨在解决使用大型语言模型应用于缺乏大量推理预算和大量域内训练数据的任务的挑战。研究者提出了四个重要变量:预训练预算、专业预算、推理预算和域内训练集大小,并比较了来自机器学习文献的不同方法。
- 关键思路本文提出了针对不同预算限制的解决方案。在推理成本受限的情况下,研究者发现训练非常大的vanilla transformer模型的标准做法存在更好的替代方案。特别是,对于大的预训练预算,超网络和专家混合模型具有更好的困惑度;而在大的专业预算情况下,使用重要性采样数据集训练的小型模型更具吸引力。
- 其它亮点本文提出了基于预算限制的解决方案,针对不同预算限制进行了实验比较。研究者发现,超网络和专家混合模型在大的预训练预算情况下表现更好,而使用重要性采样数据集训练的小型模型在大的专业预算情况下更具吸引力。本文使用了多个数据集进行实验,并开源了代码。
- 在这个领域中,最近的相关研究包括《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》和《Adapters: A Simple Way to Adapt Transformers to Domains and Languages》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流