标题:AI21实验室|STANDING ON THE SHOULDERS OF GIANT FROZEN LANGUAGE MODELS(站在冻结语言模型巨人的肩膀上)

作者:Yoav Levine, Itay Dalmedigos, Yoav Shoham等

简介:本文提出了一种利用冻结语言模型方法。巨大的预训练语言模型 (LM) 在各种任务中展示了令人惊讶的出色零样本能力。这就产生了一个单一的、多功能模型的吸引人的愿景,该模型在不同的应用程序中具有广泛的功能。然而,当前利用“冻结”LM 的领先技术——即保持其权重不变——仍然常常不如以任务相关方式修改这些权重的微调方法。反过来,这些人会健忘并损害多功能性,这表明在性能和多功能性之间进行权衡。本文的主要信息是,当前的冻结模型技术(例如快速调整)只是冰山一角,利用冻结 LM 的更强大方法可以在具有挑战性的领域中进行微调,而不会牺牲底层模型的多功能性.为了证明这一点,作者介绍了三种利用冻结模型的新方法:依赖于输入的提示调整、冻结阅读器和递归 LM,每种方法都大大改进了当前的冻结模型方法。事实上,作者的一些方法甚至在目前由后者主导的领域中优于微调方法。每种方法的计算成本都高于现有的冻结模型方法,但相对于单次通过一个巨大的冻结 LM 仍然可以忽略不计。这些方法中的每一种本身都构成了有意义的贡献,但是通过将这些贡献放在一起,作者旨在让读者相信一个更广泛的信息,该信息超出了任何给定方法的细节:冻结模型具有未开发的潜力和微调通常是不必要的。

论文下载:https://arxiv.org/pdf/2204.10019

内容中包含的图片若涉及版权问题,请及时与我们联系删除