- 简介本文介绍了我们为SemEval-2024任务1:跨语言语义文本相关性(STR)C轨道(跨语言)开发的系统。该任务旨在在没有直接监督(即零样本跨语言转移)的情况下检测给定目标语言中两个句子的语义相关性。为此,我们专注于两个不同的预训练语言模型XLM-R和Furina上的不同源语言选择策略。我们尝试了以下三种方法:1)单源转移并基于类型学相似性选择源语言,2)使用两个最近邻源语言增强英语训练数据,以及3)多源转移,其中我们将所有训练语言与来自同一语系的语言进行比较。我们进一步研究了基于机器翻译的数据增强以及脚本差异的影响。我们的提交在C8(基尼亚隆达语)测试集中获得了第一名。
- 图表
- 解决问题本论文旨在解决SemEval-2024任务1中的跨语言语义文本相关性问题,即在没有直接监督的情况下,在给定目标语言中检测两个句子的语义相关性。
- 关键思路该论文提出了不同的源语言选择策略,并结合两种不同的预训练语言模型:XLM-R和Furina。其中包括单一源语言迁移、基于类型学相似性选择源语言、使用最近邻源语言增强英语训练数据、多源迁移等方法。此外,还研究了基于机器翻译的数据增强和脚本差异对模型的影响。
- 其它亮点该论文在C8(Kinyarwanda)测试集中取得了第一名。实验设计了多种源语言选择策略,考虑了脚本差异和机器翻译的数据增强。值得关注的是,该论文的方法可以实现跨语言语义文本相关性问题的零样本学习,具有很强的实用性。
- 在该领域的相关研究包括:《Cross-lingual Semantic Textual Similarity》、《Cross-Lingual Learning to Rank with Shared Representations》等。
沙发等你来抢
去评论
评论
沙发等你来抢