Exploration of Masked and Causal Language Modelling for Text Generation

2024年05月21日
  • 简介
    大型语言模型(LLMs)彻底改变了自然语言处理(NLP)领域,并在该领域的几乎每个任务中实现了最先进的性能。然而,文本生成中普遍使用的因果语言建模(CLM)方法从左到右顺序生成文本,本质上限制了模型的自由度,即模型不能决定何时以及在哪里生成每个标记。相比之下,主要用于语言理解任务的掩码语言建模(MLM)可以在文本中任何位置和任何顺序生成标记。本文对文本生成任务的MLM和CLM方法进行了广泛比较。为此,我们在三个不同的数据集上预训练了几个大小相当的语言模型,分别是1)医疗出院摘要,2)电影情节梗概和3)作者验证数据集。为了评估生成的质量,我们首先采用定量指标,然后进行定性人类评估以分析连贯性和语法正确性。此外,我们通过在三个不同的下游任务中使用生成的文本来评估其有用性:1)实体识别,2)文本分类和3)作者验证。结果表明,在所有数据集中,MLM在文本生成方面始终优于CLM,具有更高的定量得分和更好的生成文本连贯性。该研究还发现生成文本的质量与模型在下游任务中的表现之间\textit{没有强烈的相关性}。通过本研究,我们展示了MLM在文本生成方面具有巨大的未来研究潜力,并为未来的研究提供了方向。
  • 解决问题
    比较Masked Language Modelling (MLM)和Causal Language Modelling (CLM)在文本生成任务中的表现,探索MLM在这个领域的应用潜力。
  • 关键思路
    MLM相比CLM在文本生成任务中表现更好,因为它可以在文本中的任何位置以任何顺序生成标记。MLM的应用潜力值得进一步研究。
  • 其它亮点
    研究使用三个数据集进行了实验,分别是医学出院总结、电影情节概要和作者验证数据集。通过定量和定性的方法评估了生成文本的质量,并将其用于三个下游任务的评估。研究发现,MLM在所有数据集上的文本生成表现均优于CLM,并且生成的文本更连贯。实验结果表明,生成文本的质量与模型在下游任务中的表现之间没有强烈的相关性。
  • 相关研究
    最近的相关研究包括《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》和《GPT-3: Language Models are Few-Shot Learners》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论