Tuning Language Models by Proxy - 智源社区论文

简介

尽管大型预训练语言模型具有一般能力，但它们始终受益于进一步适应以更好地实现所需的行为。然而，调整这些模型变得越来越耗费资源，或者当模型权重是私有的时，这是不可能的。我们引入了代理调整(proxy-tuning)——一种轻量级的解码时算法，它在黑盒语言模型的顶部运行，以实现直接调整模型的结果，但仅通过访问其对输出词汇的预测。我们的方法相反，调整一个较小的语言模型，然后应用小调整和未调整的语言模型预测之间的差异，将基本模型的原始预测移向调整方向，同时保留更大规模的预训练的好处。在实验中，当我们使用仅为7B大小的代理对Llama2-70B进行代理调整时，我们可以在知识、推理和安全基准测试中关闭Llama2-70B和其真正调整的聊天版本之间88%的差距。有趣的是，当在TruthfulQA上进行测试时，代理调整模型实际上比直接调整模型更真实，可能是因为解码时引导更好地保留了模型的事实知识。然后，我们通过将其应用于代码的领域自适应和问答和数学问题的任务特定微调，展示了代理调整的普适性。我们的工作展示了使用小调整语言模型通过解码时引导高效地定制大型、潜在的专有语言模型的潜力。
图表
解决问题

本论文旨在解决调整预训练语言模型以实现期望行为的问题，但这种调整通常需要大量资源，或者在模型权重是私有的情况下是不可能的。
关键思路

本文提出了一种轻量级的解码时算法——代理调整（proxy-tuning），它在黑盒语言模型的基础上操作，通过仅访问其对输出词汇的预测，实现直接调整模型的结果。该方法调整一个较小的语言模型，然后应用调整后的小模型和未调整的基础模型的预测之间的差异，将基础模型的预测向调整方向移动，同时保留了较大规模预训练的优势。
其它亮点

实验结果表明，当我们将代理调整应用于Llama2-70B时，使用仅有7B大小的代理，我们可以在知识、推理和安全基准测试中关闭Llama2-70B和其真正调整的聊天版本之间88%的差距。有趣的是，在TruthfulQA测试中，代理调整模型实际上比直接调整模型更真实，可能是因为解码时的指导更好地保留了模型的事实知识。此外，本文还展示了代理调整的普适性，应用于代码的领域自适应和问答、数学问题的任务特定微调。本文展示了使用小的调整语言模型通过解码时指导高效地定制大型、潜在的专有语言模型的前景。
相关研究

在这个领域中，最近的相关研究包括：《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》、《GPT-2: Language Models are Unsupervised Multitask Learners》等。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论