长期以来,机器翻译都只涉及到文本之间的转换,但实际上,人的感知功能可以是“多模态”的。

本文提出一种通用的视觉表征,将图片信息融合到机器翻译模型中。

使用这种视觉知识融合方法,不需要额外的双语-图片标注数据,模型就能够在多个数据集上取得显著的效果提升。

论文标题: Neural Machine Translation with Universal Visual Representation

论文作者: Zhuosheng Zhang, Kehai Chen, Rui Wang, Masao Utiyama, Eiichiro Sumita, Zuchao Li, Hai Zhao

论文链接:https://openreview.net/forum?id=Byl8hhNYPS

收录情况: ICLR 2020 (Spotlight)

代码链接: https://github.com/cooelf/UVR-NMT