FOCUS: Forging Originality through Contrastive Use in Self-Plagiarism for Language Models

简介

预训练语言模型（PLMs）在各种自然语言生成（NLG）任务中表现出令人印象深刻的结果，例如推动聊天机器人和生成故事。然而，由于它们有可能产生其训练数据段落的逐字副本，因此引起了一个伦理关注点。这是有问题的，因为PLMs是在由人类作者构建的语料库上进行训练的。因此，有迫切的需求进行研究以促进这些模型生成原创内容。在本研究中，我们介绍了一种独特的“自我剽窃”对比解码策略，旨在提高PLMs生成的文本的原创性。我们的方法涉及修改LLMs中的提示，以开发业余模型和专业模型。具体而言，业余模型被敦促使用我们设计的三个剽窃模板进行剽窃，而专业模型则保持其标准语言模型状态。该策略利用提示来刺激模型识别非原创候选令牌组合的能力，并随后施加惩罚。这种策略应用于模型的最终层之前，确保与大多数现有的PLMs（T5、GPT、LLaMA）平滑集成，无需进一步调整。实施我们的策略后，在学术AASC数据集和基于故事的ROCStories数据集中观察到了非原创序列中超过三个单词的数量显著下降。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何提高预训练语言模型生成的原创性，减少抄袭现象？
关键思路

通过自我抄袭对比解码策略，在不需要对预训练语言模型进行大规模调整的情况下，提高模型生成的原创性。
其它亮点

论文提出的自我抄袭对比解码策略可以有效减少预训练语言模型生成的非原创性文本；实验使用了学术和故事两个数据集进行验证，结果表明该策略能够显著降低超过三个词的非原创性序列数量；该策略可以与多个预训练语言模型无缝集成，且无需大规模调整。
相关研究

在近期的相关研究中，也有学者尝试通过改进预训练语言模型的生成方式来提高其原创性，例如GPT-2模型中的top-k和top-p采样方法，以及CTRL模型中的nucleus采样方法。

FOCUS: Forging Originality through Contrastive Use in Self-Plagiarism for Language Models

提问交流

提问交流