人大 | 基于预训练模型的文本生成综述

【论文标题】A Survey of Pretrained Language Models Based Text Generation

【作者团队】Junyi Li, Tianyi Tang, Wayne Xin Zhao, Jian-Yun Nie, Ji-Rong Wen

【发表时间】2022/02/28

【机构】人大、蒙特利尔大学

【论文链接】https://arxiv.org/pdf/2201.05273v3.pdf

文本生成旨在从输入数据中产生可信的、可读的人类语言文本。深度学习通过神经生成模型，特别是预训练语言模型（PLMs）的范式，大大推动了这一领域的发展。基于PLM的文本生成在学术界和工业界都被视为一个有前景的领域。在这项综述中，本文首先介绍了将PLMs应用于文本生成的三个关键方面。如何将输入编码为保留输入语义的表征，并将其融合到PLM中；如何设计一个有效的、性能良好的PLM作为生成模型；如何有效地优化给定参考文本的PLM并确保生成的文本满足特殊的文本属性。然后，本文找出了与这三个关键观点相对应的一些主要挑战和解决方案。接下来，本文对各种有用的资源和典型的文本生成应用进行了总结，以便与PLMs一起工作。最后，本文强调了一些未来的研究方向，这将进一步改善这些PLMs的文本生成。本文坚信，这篇全面的综述报告将成为学习核心概念以及了解PLMs最新发展的宝贵资源。

上图展示了本文关于生成模型的框架简介，包括3部分，

如何将输入数据编码为表征以为PLM保留输入语义。这主要涉及到3种数据类型，即非结构化输入、结构化输入和多模态输入。
PLM部分，在将输入数据编码为低维表征之后，下一步是开发一个有效和合适的PLM作为文本生成函数。基于这样的PLM架构，文本生成目标可以被建模为给定输入数据𝑥的输出文本𝑦的条件概率，这其中Transformer是大模型训练的核心。
在对输入数据进行编码并设计了生成模型（即PLMs）后，下一个关键步骤是针对文本生成任务优化PLM M。本文主要考虑三种优化方式，即微调，提示微调和属性微调。

微调：通过用文本生成损失（如序列交叉熵损失）来调整PLM的权重，将特定任务信息纳入PLM。大多数生成性PLM都是使用语言建模目标进行预训练，然后在文本生成任务中以特定的任务目标进行微调。预训练和微调之间的差异影响了PLM在文本生成任务上的表现。

提示微调：下游的文本生成任务在预训练中被重新表述为语言建模任务。一个提示函数𝑓(x)，通过两个步骤将输入的文本𝑥 ′ = 𝑓(𝑥)转换成一个提示：1.应用一个包含两个槽的文本模板：输入槽[𝑋]用于输入𝑥，答案槽[𝑍]用于中间生成的答案文本𝑧，以后将被映射到𝑦。2. 用输入文本x填充输入槽 [𝑋]。

属性微调：对于不同的生成任务，期望针对不同的语言属性（ Relevance，Faithfulness，Order-Preservation）对PLM进行专门的优化，从而使生成的文本能够满足生成任务的相应需求。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

人大 | 基于预训练模型的文本生成综述

评论