MaiNLP at SemEval-2024 Task 1: Analyzing Source Language Selection in Cross-Lingual Textual Relatedness

简介

本文介绍了我们为SemEval-2024任务1：跨语言语义文本相关性（STR）C轨道（跨语言）开发的系统。该任务旨在在没有直接监督（即零样本跨语言转移）的情况下检测给定目标语言中两个句子的语义相关性。为此，我们专注于两个不同的预训练语言模型XLM-R和Furina上的不同源语言选择策略。我们尝试了以下三种方法：1）单源转移并基于类型学相似性选择源语言，2）使用两个最近邻源语言增强英语训练数据，以及3）多源转移，其中我们将所有训练语言与来自同一语系的语言进行比较。我们进一步研究了基于机器翻译的数据增强以及脚本差异的影响。我们的提交在C8（基尼亚隆达语）测试集中获得了第一名。
图表
解决问题

本论文旨在解决SemEval-2024任务1中的跨语言语义文本相关性问题，即在没有直接监督的情况下，在给定目标语言中检测两个句子的语义相关性。
关键思路

该论文提出了不同的源语言选择策略，并结合两种不同的预训练语言模型：XLM-R和Furina。其中包括单一源语言迁移、基于类型学相似性选择源语言、使用最近邻源语言增强英语训练数据、多源迁移等方法。此外，还研究了基于机器翻译的数据增强和脚本差异对模型的影响。
其它亮点

该论文在C8（Kinyarwanda）测试集中取得了第一名。实验设计了多种源语言选择策略，考虑了脚本差异和机器翻译的数据增强。值得关注的是，该论文的方法可以实现跨语言语义文本相关性问题的零样本学习，具有很强的实用性。
相关研究

在该领域的相关研究包括：《Cross-lingual Semantic Textual Similarity》、《Cross-Lingual Learning to Rank with Shared Representations》等。

MaiNLP at SemEval-2024 Task 1: Analyzing Source Language Selection in Cross-Lingual Textual Relatedness

评论