基于 Self-Play 的文本生成对抗网络（GAN）模型

本文介绍了一种新的基于自我博弈的文本生成对抗网络（GAN）训练算法。目前大多数文本生成任务，如机器翻译、文本摘要、对话系统等，都采用序列到序列模型（seq2seq），并通过最大似然估计（MLE）进行模型训练。这种训练方式存在 exposure bias 的问题，使得模型在训练和推断时单词的分布不一致，因此会影响生成质量。此前的工作如 SeqGAN 等，尝试通过 GAN 来训练文本生成模型。

GAN 在文本生成中的应用主要受限于两个问题，一是奖励稀疏（reward sparsity），即训练中判别器往往远强于生成器，因此生成器在训练过程中得到的奖励信号通常很低；二是模式崩溃（mode collapse），即生成的文本通常较为单一。本文中借鉴深度强化学习中常用的自我博弈（self-play）机制，提出了自对抗学习（SAL）范式来改进文本 GAN 的训练。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

基于 Self-Play 的文本生成对抗网络（GAN）模型

评论列表

评论