一个「PPT」框架，让超大模型调参变简单：清华刘知远、黄民烈团队力作

近年来，微调预训练语言模型（PLM）取得了很大进展。通过微调 PLM 的全部参数，从大规模无标签语料库中获得的多方面知识可以用于处理各种 NLP 任务，并优于从头学习模型的方法。为简单起见，此处将这种全模型调整（full-model tuning）称为 FT。

尽管 FT 方法已经显示出很好的结果，但随着模型规模的迅速扩张，为每个下游任务微调一个完整的大模型正变得越来越昂贵。为了应对这一挑战，来自谷歌的 Brian Lester 等人在《 The Power of Scale for Parameter-Efficient Prompt Tuning 》中提出了 prompt tuning（PT），以降低为下游任务微调大模型的成本。

具体来说，PT 采用包含连续嵌入的 soft prompt 代替 hard prompt（离散语言短语）。这些连续 prompt 嵌入通常是随机初始化和端到端学习的。为了避免为每个下游任务存储整个模型，PT 冻结了 PLM 的所有参数，只调整 soft prompt，无需添加任何中间层和 task-specific 组件。尽管 PT 具有很少的可调参数和简单的设计，但它仍然可以媲美 FT。

PT 有两个非常有前景的优势：1）与 hard prompt 相比，soft prompt 可以端到端学习；2）PT 是大规模 PLM 实际应用的一种高效、有效的范式。然而，如图 2 (b)所示，在 few-shot 场景下，PT 的表现比 FT 差很多，这可能会阻碍 PT 在各种低资源场景下的应用。

因此，在这篇论文中，来自清华大学的 Yuxian Gu、Xu Han、刘知远、黄民烈四位研究者广泛探索了如何通过 PT 以高效和有效的方式使用 PLM 进行 few-shot 学习。

具体来说，在论文的第二部分，他们进行了试点实验，分析了 PT 在大规模 PLM 中用于 few-shot 学习的有效性，这是现在很多研究所忽略的问题。他们发现：1）verbalizer 的选择对于性能有很大的影响；2）简单地用具体的词嵌入初始化 soft prompt 并不能提高性能；3）将 soft 和 hard prompt 结合起来很有帮助；4）所有这些方法都不能很好地处理 few-shot prompt 调优问题。上述观察结果表明，为大规模 PLM 找到合适的 prompt 并非易事，而精心设计的 soft prompt token 初始化至关重要。

论文链接：https://arxiv.org/pdf/2109.04332.pdf

为了帮助模型找到合适的 prompt，研究者使用大规模无标记语料库上的自监督任务对这些 token 进行预训练。为了保证预训练 prompt 的泛化能力，他们将典型分类任务分为三种：sentence-pair 分类、multiple-choice 分类和 single-text 分类，每种对应一个自监督的预训练任务。此外，他们发现 multiple-choice 分类比其他分类都要普遍，可以将所有下游分类任务都统一到这种分类中。他们给这种 Pre-trained Prompt Tuning 框架起名为「PPT」。

研究者使用 3 个 11B 的 PLM（T5-XXL、mT5-XXL、CPM-2）在多个数据集上评估了 PPT 的性能。实验结果表明，PPT 不仅可以大幅提升 few-shot PT，媲美甚至超越 FT 方法，还能降低 few-shot 学习的方差。除有效性之外，PPT 还保留了现有 PT 方法的参数效率，这对未来在大规模 PLM 上的应用具有重要价值。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

一个「PPT」框架，让超大模型调参变简单：清华刘知远、黄民烈团队力作

评论列表

评论