SuperPos-Prompt: Enhancing Soft Prompt Tuning of Language Models with Superposition of Multi Token Embeddings

2024年06月07日
  • 简介
    软提示调整技术近来因其对预训练语言模型进行参数高效调整的有效策略而备受关注,特别是在最小化模型参数调整方面。尽管它们的使用越来越广泛,但是在使用软提示实现最佳调整,特别是在较小的数据集上,仍然是一个巨大的挑战。本研究在这个领域做出了两个贡献:(一)我们引入了SuperPos-Prompt,一种新的重新参数化技术,采用多个预训练词汇嵌入的叠加来改进软提示的学习。我们在几个GLUE和SuperGLUE基准测试中的实验一致表明,SuperPos-Prompt相对于Residual Prompt调整具有显著优势,在T5-Small和T5-Base中平均得分分别提高了6.4和5.0,并且收敛速度更快。显著的是,SuperPos-Prompt有时甚至优于完全微调方法。(二)此外,我们通过省略冻结网络中的dropout,展示了增强的性能和快速收敛,从而在各种情况和调整方法中都得到了一致的改进。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在解决使用soft prompt对预训练语言模型进行参数高效调整的问题,特别是针对较小的数据集。同时,探讨如何在冻结网络中省略dropout以提高性能和加速收敛。
  • 关键思路
    本文提出了一种新的重新参数化技术SuperPos-Prompt,利用多个预训练词汇嵌入的叠加来改善soft prompt的学习。实验结果表明,SuperPos-Prompt相比Residual Prompt tuning方法,在多个GLUE和SuperGLUE基准测试中表现更好,并且具有更快的收敛速度。此外,本文还发现在冻结网络中省略dropout可以提高性能和加速收敛。
  • 其它亮点
    本文的实验结果表明,SuperPos-Prompt方法在多个GLUE和SuperGLUE基准测试中表现更好,并且具有更快的收敛速度。同时,省略dropout可以提高性能和加速收敛。本文的代码已经开源。值得进一步研究的工作包括如何进一步提高SuperPos-Prompt的性能,以及如何将该方法应用于其他领域。
  • 相关研究
    最近的相关研究包括《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》、《Adapters: A Simple and Scalable Framework for Parallel Transfer Learning》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问