多模态 | 多模态机器翻译中的Gumbel注意

【论文标题】Gumbel-Attention for Multi-modal Machine Translation 【作者团队】Pengbo Liu, Hailong Cao, Tiejun Zhao 【机构】哈尔滨工业大学【发表时间】2021/03/16 【论文链接】https://arxiv.org/abs/2103.08862 多模态机器翻译(MMT)通过引入视觉信息来提高翻译质量。然而，现有的MMT模型忽略了图像会带来与文本无关的信息的问题，给模型带来了很大的噪声，影响了翻译质量。本文提出了一种适用于多模态机器翻译的Gumbel-Attention算法，该算法选择图像特征中与文本相关的部分。与以往的基于注意的方法不同，首先使用可微分的方法来选择图像信息，并自动去除图像特征中无用的部分。通过Gumbel-Attention和图像特征的得分矩阵，生成图像感知的文本表示。然后用多模态编码器分别对文本表示和图像感知文本表示进行编码。最后，通过多模态门控融合得到编码器的最终输出。实验并通过实例分析证明，我们的方法保留了与文本相关的图像特征，并保留了剩余的特征部件帮助MMT模型生成更好的翻译。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

多模态 | 多模态机器翻译中的Gumbel注意

评论列表

评论