Prompt Pre-training：迈向更强大的Parameter-Efficient Prompt Tuning

从 prompt learning 的发展来看，一开始关注的是将任务建模成和预训练相近的形式能够提高在少样本微调全部模型参数的表现，然后就是关注怎么去更好地设计 prompt，可以是离散，也可以是连续，或者是混合的 template。

连续型 prompt 的出现，让人们开始思考能否只微调 prompt 相关的参数，固定预训练模型的参数，从而避免传统 fine-tuning 的问题，即每一个下游任务，都要存储一份特定于该任务的微调后的模型拷贝，这种方式被叫做 Parameter-Efficient Prompt Tuning。

这样的设想，最大的挑战在于，仅微调 prompt 相关的参数，能否媲美甚至超过 fine-tuning 的表现。

于是提出下面几种疑问：

在全量数据情况下，仅微调 prompt 相关的参数，能否媲美甚至超过 fine-tuning 的表现？
在少量数据情况下，仅微调 prompt 相关的参数，能否媲美甚至超过 fine-tuning 的表现？
如果能做到上述表现，预训练模型的尺寸是否有影响？是否一定需要超大预训练模型？

本文通过详细解读三篇文章给大家展示了 Parameter-Efficient Prompt Tuning 的发展是如何解决上述疑问的。

1. 从Parameter-Efficient Prompt Tuning说起

论文标题：

The Power of Scale for Parameter-Efficient Prompt Tuning

收录会议：

EMNLP 2021

论文链接：

https://arxiv.org/abs/2104.08691

代码链接：

https://github.com/kipgparker/soft-prompt-tuning

2. Prompt预训练：让大模型在少样本情况下媲美Fine-Tuning

论文标题：

PPT: Pre-trained Prompt Tuning for Few-shot Learning

论文链接：

https://arxiv.org/abs/2109.04332

3. SPoT：让小模型也能媲美Fine-Tuning的Prompt预训练

论文标题：

SPoT: Better Frozen Model Adaptation through Soft Prompt Transfer

论文链接：

https://arxiv.org/abs/2110.07904

从本文介绍的三篇论文看，我们不难得出一些结论。一是即使是普通尺寸的模型也有机会在 Parameter-Efficient tuning 的设置下媲美 fine-tuning 的效果；二是媲美 fine-tuning 的关键可能在于学习一个好的 prompt 初始化，prompt 预训练就是达成这一条件的手段之一。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

Prompt Pre-training：迈向更强大的Parameter-Efficient Prompt Tuning

评论