Concentrate Attention: Towards Domain-Generalizable Prompt Optimization for Language Models

简介

最近，提示优化的进展显著提高了预训练语言模型（PLMs）在下游任务中的性能。然而，优化提示对领域泛化的潜力尚未得到充分探索。为了探索提示泛化在未知领域中的本质，我们进行了试验，并发现：（i）从PLMs的深层获得更多注意权重的提示更具有一般性，（ii）在PLMs的深层中具有更稳定的注意分布的提示更具有一般性。因此，我们提出了一个新的面向领域通用提示优化的目标，称为“Concentration”，它代表从当前解码标记到提示标记的“回溯”注意力，以增加对提示的注意力强度并减少注意力分布的波动。我们分别将这个新目标适应到流行的软提示和硬提示优化方法中。广泛的实验表明，我们的想法在多源领域泛化设置中，软提示泛化的准确性提高了1.42％，硬提示泛化的准确性提高了2.16％，同时保持了令人满意的领域内性能。这些有希望的结果验证了我们提出的提示优化目标的有效性，并为领域通用提示提供了关键见解。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文试图探索优化提示对于领域泛化的作用，提出了一种新的提示优化目标“Concentration”，并比较了其与现有方法的性能差异。
关键思路

本文的关键思路是通过增加提示与当前解码令牌之间的关注力，减少关注分布的波动，从而提高提示的泛化性能。
其它亮点

本文的实验结果表明，新的提示优化目标可以在多源领域泛化设置中提高软提示和硬提示的泛化性能，同时保持令人满意的领域内性能。这个新的提示优化目标提供了关于领域泛化提示的重要见解。
相关研究

最近的相关研究包括《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》、《Unsupervised Cross-lingual Representation Learning at Scale》等。

Concentrate Attention: Towards Domain-Generalizable Prompt Optimization for Language Models

提问交流

提问交流