【论文标题】A Survey of Pretrained Language Models Based Text Generation
【作者团队】Junyi Li, Tianyi Tang, Wayne Xin Zhao, Jian-Yun Nie, Ji-Rong Wen
【发表时间】2022/02/28
【机 构】人大、蒙特利尔大学
【论文链接】https://arxiv.org/pdf/2201.05273v3.pdf
文本生成旨在从输入数据中产生可信的、可读的人类语言文本。深度学习通过神经生成模型,特别是预训练语言模型(PLMs)的范式,大大推动了这一领域的发展。基于PLM的文本生成在学术界和工业界都被视为一个有前景的领域。在这项综述中,本文首先介绍了将PLMs应用于文本生成的三个关键方面。如何将输入编码为保留输入语义的表征,并将其融合到PLM中;如何设计一个有效的、性能良好的PLM作为生成模型;如何有效地优化给定参考文本的PLM并确保生成的文本满足特殊的文本属性。然后,本文找出了与这三个关键观点相对应的一些主要挑战和解决方案。接下来,本文对各种有用的资源和典型的文本生成应用进行了总结,以便与PLMs一起工作。最后,本文强调了一些未来的研究方向,这将进一步改善这些PLMs的文本生成。本文坚信,这篇全面的综述报告将成为学习核心概念以及了解PLMs最新发展的宝贵资源。
上图展示了本文关于生成模型的框架简介,包括3部分,
- 如何将输入数据编码为表征以为PLM保留输入语义。这主要涉及到3种数据类型,即非结构化输入、结构化输入和多模态输入。
- PLM部分,在将输入数据编码为低维表征之后,下一步是开发一个有效和合适的PLM作为文本生成函数。基于这样的PLM架构,文本生成目标可以被建模为给定输入数据𝑥的输出文本𝑦的条件概率,这其中Transformer是大模型训练的核心。
- 在对输入数据进行编码并设计了生成模型(即PLMs)后,下一个关键步骤是针对文本生成任务优化PLM M。本文主要考虑三种优化方式,即微调,提示微调和属性微调。
微调:通过用文本生成损失(如序列交叉熵损失)来调整PLM的权重,将特定任务信息纳入PLM。大多数生成性PLM都是使用语言建模目标进行预训练,然后在文本生成任务中以特定的任务目标进行微调。预训练和微调之间的差异影响了PLM在文本生成任务上的表现。
提示微调:下游的文本生成任务在预训练中被重新表述为语言建模任务。一个提示函数𝑓(x),通过两个步骤将输入的文本𝑥 ′ = 𝑓(𝑥)转换成一个提示:1.应用一个包含两个槽的文本模板:输入槽[𝑋]用于输入𝑥,答案槽[𝑍]用于中间生成的答案文本𝑧,以后将被映射到𝑦。2. 用输入文本x填充输入槽 [𝑋]。
属性微调:对于不同的生成任务,期望针对不同的语言属性( Relevance,Faithfulness,Order-Preservation)对PLM进行专门的优化,从而使生成的文本能够满足生成任务的相应需求。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢