MaiNLP at SemEval-2024 Task 1: Analyzing Source Language Selection in Cross-Lingual Textual Relatedness

2024年04月03日
  • 简介
    本文介绍了我们为SemEval-2024任务1:跨语言语义文本相关性(STR)C轨道(跨语言)开发的系统。该任务旨在在没有直接监督(即零样本跨语言转移)的情况下检测给定目标语言中两个句子的语义相关性。为此,我们专注于两个不同的预训练语言模型XLM-R和Furina上的不同源语言选择策略。我们尝试了以下三种方法:1)单源转移并基于类型学相似性选择源语言,2)使用两个最近邻源语言增强英语训练数据,以及3)多源转移,其中我们将所有训练语言与来自同一语系的语言进行比较。我们进一步研究了基于机器翻译的数据增强以及脚本差异的影响。我们的提交在C8(基尼亚隆达语)测试集中获得了第一名。
  • 图表
  • 解决问题
    本论文旨在解决SemEval-2024任务1中的跨语言语义文本相关性问题,即在没有直接监督的情况下,在给定目标语言中检测两个句子的语义相关性。
  • 关键思路
    该论文提出了不同的源语言选择策略,并结合两种不同的预训练语言模型:XLM-R和Furina。其中包括单一源语言迁移、基于类型学相似性选择源语言、使用最近邻源语言增强英语训练数据、多源迁移等方法。此外,还研究了基于机器翻译的数据增强和脚本差异对模型的影响。
  • 其它亮点
    该论文在C8(Kinyarwanda)测试集中取得了第一名。实验设计了多种源语言选择策略,考虑了脚本差异和机器翻译的数据增强。值得关注的是,该论文的方法可以实现跨语言语义文本相关性问题的零样本学习,具有很强的实用性。
  • 相关研究
    在该领域的相关研究包括:《Cross-lingual Semantic Textual Similarity》、《Cross-Lingual Learning to Rank with Shared Representations》等。
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论