Enhancing Cross-lingual Sentence Embedding for Low-resource Languages with Word Alignment

简介

最近，跨语言句子嵌入领域取得了显著进展，但由于平行语料库的稀缺性，低资源语言方面的研究滞后。本文表明，当前模型中低资源语言与高资源语言的跨语言词表示明显不匹配。为了解决这个问题，我们引入了一个新的框架，利用现成的词对齐模型，明确地对英语和八种低资源语言的单词进行对齐。该框架包括三个主要的训练目标：对齐单词预测、单词翻译排名以及广泛使用的翻译排名。我们通过比特文本检索任务的实验评估了我们的方法，结果显示在低资源语言的句子嵌入方面有显著的改进。此外，所提出的模型在高资源语言的更广泛任务上具有竞争力的表现，这也证明了其实用性。
图表
解决问题

本论文旨在解决低资源语言中跨语言句子嵌入的问题，即当前模型中低资源语言的跨语言词表示与高资源语言的不够对齐的问题。
关键思路

论文提出了一种新的框架，利用现成的单词对齐模型，显式地对英语和八种低资源语言之间的单词进行对齐，包括三个主要的训练目标：对齐单词预测、单词翻译排名和广泛使用的翻译排名。
其它亮点

论文通过在位文本检索任务上的实验表明，该方法在低资源语言的句子嵌入方面取得了显著的改进。此外，在高资源语言上的更广泛任务中，所提出的模型具有竞争力的性能。
相关研究

最近在这个领域中，还有一些相关的研究，例如“Unsupervised Cross-Lingual Representation Learning at Scale”和“Massively Multilingual Sentence Embeddings for Zero-Shot Cross-Lingual Transfer and Beyond”。

Enhancing Cross-lingual Sentence Embedding for Low-resource Languages with Word Alignment

评论