本文介绍了一种新的基于自我博弈的文本生成对抗网络(GAN)训练算法。目前大多数文本生成任务,如机器翻译、文本摘要、对话系统等,都采用序列到序列模型(seq2seq),并通过最大似然估计(MLE)进行模型训练。这种训练方式存在 exposure bias 的问题,使得模型在训练和推断时单词的分布不一致,因此会影响生成质量。此前的工作如 SeqGAN 等,尝试通过 GAN 来训练文本生成模型。
GAN 在文本生成中的应用主要受限于两个问题,一是奖励稀疏(reward sparsity),即训练中判别器往往远强于生成器,因此生成器在训练过程中得到的奖励信号通常很低;二是模式崩溃(mode collapse),即生成的文本通常较为单一。本文中借鉴深度强化学习中常用的自我博弈(self-play)机制,提出了自对抗学习(SAL)范式来改进文本 GAN 的训练。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢