ACM MM 2022 | 基于噪声稳健学习的跨语言跨模态检索

尽管近年来跨模态检索领域取得了长足的发展，但由于缺乏人工标注的数据集，针对低资源语言的研究较少。针对低资源语言，提出一种抗噪的跨语言跨模态检索方法.为此，我们使用机器翻译（MT）为低资源语言构造伪平行句子对。然而，由于机器翻译的不完善性，它在翻译过程中容易引入噪声，使得文本嵌入被破坏，从而影响检索性能。为了解决这一问题，本文提出了一种多视角自提取方法来学习噪声鲁棒的目标语言表示，该方法利用交叉注意模块生成软伪目标，从基于相似度的视角和基于特征的视角提供直接监督。此外，受无监督机器翻译中回译的启发，我们最小化原始句子和回译句子之间的语义差异，以进一步提高文本编码器的噪声鲁棒性。在三个跨语言的视频—文本和图像—文本跨模态检索基准上进行了大量实验，实验结果表明，该方法在不使用额外人工标注数据的情况下显著提高了整体性能.此外，配备有来自最近的视觉和语言预训练框架的预训练的视觉编码器，即，CLIP的测试结果表明，该方法与常用的预训练模型具有良好的兼容性。

论文链接：https://arxiv.org/pdf/2208.12526.pdf

代码链接：https://github.com/HuiGuanLab/nrccr

内容中包含的图片若涉及版权问题，请及时与我们联系删除

ACM MM 2022 | 基于噪声稳健学习的跨语言跨模态检索

评论列表

评论