Style Transfer with Multi-iteration Preference Optimization

简介

最近许多文本风格转换技术将其方法描述为强化学习和偏好优化的变体。在本研究中，我们考虑这些方法与一类主要用于（非神经网络）统计机器翻译的优化方法之间的关系，这些方法以前被称为“调整”。受过去的这些技术的启发，我们改进了已有的偏好优化方法，包括多次探索和优化迭代，并通过遵循“希望”与“恐惧”抽样策略选择对比例子。然而，我们意识到机器翻译和风格转换之间的差异，因此我们进一步定制了我们的框架，采用新的伪平行生成方法和动态加权奖励聚合方法来解决缺乏平行数据和需要多目标奖励的问题。我们在两个常用的文本风格转换数据集上评估了我们的模型。通过自动和人工评估结果，我们展示了我们的模型相比于最先进的基线模型的有效性和优越性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在改进文本风格转换的优化方法，解决缺乏平行数据和多目标奖励的问题，提高风格转换的效果。
关键思路

论文提出一种基于过去机器翻译优化方法的文本风格转换框架，包括多次探索和优化迭代、'hope' vs 'fear'采样策略、伪平行生成方法和动态加权奖励聚合方法。
其它亮点

实验结果表明，该方法在两个常用文本风格转换数据集上的效果优于现有的基准模型，同时也提供了开源代码。
相关研究

在文本风格转换领域，最近的相关研究包括'Transformer-based Style Transfer'、'Controllable Unsupervised Text Attribute Transfer via Editing Entangled Latent Representation'等。

Style Transfer with Multi-iteration Preference Optimization

提问交流

提问交流