GPT-3等超大模型的兴起,也带来了 in-context learning (语境学习)的新范式。在语境学习中,模型并不使用梯度下降,根据监督样本调整参数;而是将监督样本的输入输出接起来作为prompt(提示词),引导模型根据测试集的输入生成预测结果。该方法的表现可以大幅超越零监督学习,并为少样本监督学习提供了新的思路。

之前监督学习中的研究经验告诉我们,训练集随机打乱通常对模型表现不会有明显影响。然而,这个结论在 in-context learning 下并不适用。作者发现,prompt中示例的顺序,对 in-context learning 的表现有很大影响,可以让模型表现在state-of-the-art到随机之间波动。这一规律,并不随着模型大小与样本量的多寡而变化。并且,较好的prompt样本的顺序,并没有规律可循。

那我们就无法选出最好的prompt顺序了么?作者表示,一方面,我们可以利用验证集来对prompt的顺序做挑选。然而,这违背了 in-context learning  的少样本学习的初衷。另一方面,作者发现大多数使模型失效的prompt顺序,会让模型预测的标签分布与真实分布有较大偏差。因此,作者根据少量样本,基于预训练语言模型,生成无标签数据。以自动生成的无标注数据作为验证集,以标签分布的熵值作为验证指标,挑选最优prompt顺序。作者提出的方法在11个文本分类上,取得了13%的相对提升。

本文为ACL 2022 outstanding paper, 作者主要来自UCL。

论文题目
Fantastically Ordered Prompts and Where to Find Them: Overcoming Few-Shot Prompt Order Sensitivity

论文链接https://aclanthology.org/2022.acl-long.556

内容中包含的图片若涉及版权问题,请及时与我们联系删除