ICLR2022|基于可微分提示的语言模型少样本微调方法

论文题目：Differentiable Prompt Makes Pre-trained Language Models Better Few-shot Learners

本文作者：张宁豫（浙江大学）、李泺秋（浙江大学）、陈想（浙江大学）、邓淑敏（浙江大学）、毕祯（浙江大学）、谭传奇（阿里巴巴）、黄非（阿里巴巴）、陈华钧（浙江大学）

发表会议：ICLR 2022

论文链接：https://arxiv.org/pdf/2108.13161.pdf

转自：浙大KG

一、从预训练微调到提示学习

随着自然语言处理技术的不断发展，大模型预训练微调已成为了标准范式，并在大量的语言理解、问答等基准数据集和领域任务上取得了显著的突破。然而，在预训练和微调的过程中，不同阶段的优化目标不一致。为了解决这一问题，OpenAI等机构开始探索使用大规模预训练语言模型如GPT、BERT等的新思路，通过给定提示词（Prompt）和少量样本实例来应用大模型，并发展出一种全新的自然语言处理范式----“提示学习”。

提示学习通过构造提示模板和标签映射，统一了预训练目标和微调任务，进而提升了语言模型的少样本、跨领域、多任务等能力。提出学习最早起源于GPT3[1]、T5等大模型，并由PET[2,3]、LM-BFF[4]发扬光大。后续工作也在这一时期如雨后春笋般涌现，如清华大学提出了可自动学习模版的方法P-tuning[5]、知识增强提示学习方法PTR[6]、预训练提示方法PPT[7]，斯坦福大学提出了可学习前缀式提示学习方法Prefix-tuning[8]，Huggingface提出了T0[9]多任务学习方法等。相关工作可以参见https://github.com/thunlp/PromptPapers以及CCF关于提示学习的术语解读[10]

二、动机

提示学习通过引入任务相关的模版和标签映射，将分类任务优化目标转换为和语言模型预训练过程中掩码文本建模（Masked-Language Modeling）目标相一致的形式。其中如何选取合适模版和标签映射是影响提示学习性能的关键。从PET的手工构建模版方式，到AutoPrompt和LM-BFF等工作基于梯度或者生成模型选取离散模版词，再到P-tuning引入外部架构并从任务中学习连续化模版词，可以看出提示学习的工作经历了从离散到连续、从手工到自动的演进过程，类似于人工智能领域从特征工程到深度学习的范式变化。有鉴于离散化模版词的非最优性，本文提出的DART（DifferentiAble pRompT）方法采用了一种简单的构造方式，可以在任务中同时学习连续化的模版和标签映射。

三、可微分提示学习方法DART

具体而言，本文提出的方法使用一类特殊的非语义词元作为模版和标签映射词，并在训练过程对这些词元的表示进行优化：

对于模版，离散的模版通常使用语义词元的嵌入即，而DART采用可训练参数替换语义词元作为模版的表示，即，在训练过程中学习最优的表示；
对于标签映射，离散模版采用对应词的嵌入即，而DART采用连续的映射，即；
为减少外部参数使用，DART模型使用语言模型中未使用词元（例如，[unused1]或者词表中的特殊词元）的嵌入作为参数。

在训练过程中，首先对分类目标进行训练：。此外，DART还引入了和预训练过程类似的流畅度目标（Fluency Constraint Object），对每个样本随机选取词元进行遮盖并预测，训练损失为。DART结合两方面损失进行训练：。

四、实验分析

本文列出了DART模型在15个NLP数据集上的表现，包括情感分析、自然语言推理、释义、句子相似度、关系抽取和事件抽取的多种任务，其中涵盖主流的句子分类数据集如SST-2、MR、CR、Subj、TREC、MNLI、QNLI、MRPC和QQP等，以及多种关系/事件抽取数据集如SemEval 2010、TACRED-Revisit、Wiki80、Chemprot、ACE2005等，并与现有工作进行了对比。以下表格列出了主要的实验结果，具体的实验结果和分析可以参见论文。

五、小结与展望

本文介绍了DART，一种简单而有效的提示学习方法，可以在一定程度上提升预训练语言模型的样本利用效率。与传统的微调方法相比，DART可以在少样本情形降低提示构建成本和提升任务性能，并可拓展到其他语言模型和任务。

参考文献

[1] Brown T, Mann B, Ryder N, et al. Language models are few-shot learners[J]. Advances in neural information processing systems, 2020, 33: 1877-1901.

[2] Schick T, Schütze H. It's not just size that matters: Small language models are also few-shot learners[J]. arXiv preprint arXiv:2009.07118, 2020.

[3] Schick T, Schütze H. Exploiting cloze questions for few shot text classification and natural language inference[J]. arXiv preprint arXiv:2001.07676, 2020.

[4] Gao T, Fisch A, Chen D. Making pre-trained language models better few-shot learners[J]. arXiv preprint arXiv:2012.15723, 2020.

[5] Liu X, Zheng Y, Du Z, et al. GPT understands, too[J]. arXiv preprint arXiv:2103.10385, 2021.

[6] Han, Xu, et al. "Ptr: Prompt tuning with rules for text classification." arXiv preprint arXiv:2105.11259 (2021).

[7] Gu Y, Han X, Liu Z, et al. Ppt: Pre-trained prompt tuning for few-shot learning[J]. arXiv preprint arXiv:2109.04332, 2021.

[8] Li X L, Liang P. Prefix-tuning: Optimizing continuous prompts for generation[J]. arXiv preprint arXiv:2101.00190, 2021.

[9] Sanh V, Webson A, Raffel C, et al. Multitask prompted training enables zero-shot task generalization[J]. arXiv preprint arXiv:2110.08207, 2021.

[10] 联手信息系统专业委员会：“提示学习”术语发布 | CCF术语快线https://mp.weixin.qq.com/s/WMWn9aA6UFRZdeJuhGeWwA

内容中包含的图片若涉及版权问题，请及时与我们联系删除

ICLR2022|基于可微分提示的语言模型少样本微调方法

评论