预训练语言模型在众多NLP任务上都有成功的应用。本文分享了ICLR2022上的几篇文章,重点关注预训练语言模型在下游任务中的迁移效率与隐私保护问题。

  • LoRA:大型语言模型低秩自适应(LoRA: Low-Rank Adaptation of Large Language Models)

    作者提出了一种基于低秩矩阵优化的模型微调方法LoRA。该方法固定了预训练模型的权重,在transformer每一层中插入一个可训练的秩分解矩阵,大大减少了下游任务的训练参数量,且几乎不影响模型性能。

    论文地址:

    https://openreview.net/pdf?id=nZeVKeeFYf9

  • 针对参数高效迁移学习的统一框架(Towards a Unified View of Parameter-Efficient Transfer Learning)

    论文研究了近期提出的不同参数高效迁移方法的区别和联系,提出了一个统一的框架去融合不同方法的设计要素,并进一步分析各设计要素的有效性。

    论文地址:

    https://openreview.net/pdf?id=0RDcd5Axok

  • 语言模型的差分隐私微调(DIFFERENTIALLY PRIVATE FINE-TUNING OF LANGUAGE MODELS)

    论文提出了一个简单、稀疏且高效的元框架,将差分隐私机制应用到预训练语言模型微调的任务中。论文在多个标准NLP任务上完成实验,证实其方法可以很好地权衡模型的实用性与隐私性。

    论文地址:

    https://openreview.net/pdf?id=Q42f0dfjECO

  • 大规模语言模型是很好的差分隐私学习者(LARGE LANGUAGE MODELS CAN BE STRONG DIFFERENTIALLY PRIVATE LEARNERS)

    论文完成了多组实验,研究在隐私设置下预训练语言模型的微调。研究表明,在适度的隐私预算下,用DP优化直接微调预训练模型具有较好的表现。这一发现可以应用于具有隐私性要求的多种NLP任务,如文本分类任务和文本生成任务。作者还从模型参数规模、模型超参数设置和训练目标对齐这三个方面提出了模型优化建议。

    论文地址:

    https://openreview.net/pdf?id=bVuP3ltATMz

     

内容中包含的图片若涉及版权问题,请及时与我们联系删除