SemEval Task 1: Semantic Textual Relatedness for African and Asian Languages

2024年03月27日
  • 简介
    我们提出了第一个语义文本相关性(STR)共享任务。尽管早期的共享任务主要关注语义相似性,但我们相反探究了跨14种语言的更广泛的语义相关性现象:南非荷兰语、阿尔及利亚阿拉伯语、阿姆哈拉语、英语、豪萨语、印地语、印尼语、基尼阿鲁旺达语、马拉地语、摩洛哥阿拉伯语、现代标准阿拉伯语、旁遮普语、西班牙语和泰卢固语。这些语言来自五个不同的语系,主要分布在非洲和亚洲,这些地区的NLP资源相对较少。数据集中的每个实例都是与一个分数相关联的句子对,该分数代表两个句子之间的语义文本相关性程度。参与系统被要求在14种语言中的三个主要跟踪(a)监督,(b)无监督和(c)跨语言中通过排名句子对的意思接近程度(即它们的语义相关性程度)。该任务吸引了163个参与者。我们总共收到了来自51个不同团队的70个提交(跨所有任务),以及38个系统描述论文。我们报告了表现最佳的系统以及三个不同跟踪的最常见和最有效的方法。
  • 图表
  • 解决问题
    本论文旨在解决语义文本相关性(STR)的问题,通过研究14种语言中的语义相关性,探索语义相关性现象。这是一个新问题。
  • 关键思路
    本文提出了三个主要的任务,即监督、无监督和跨语言任务,以评估参与系统在14种语言中对句子对的语义相关性排序的能力。此外,本文还提出了一种基于BERT的模型,使用了多任务学习和预训练技术,取得了最好的表现。相比当前领域的研究,本文的思路在于研究跨语言语义相关性,同时使用了先进的深度学习技术。
  • 其它亮点
    本文吸引了163个参与者,51个团队提交了70个系统,38篇系统描述论文。本文使用14种语言构建了一个大型数据集,并提出了三个主要任务来评估系统的性能。本文提出的基于BERT的模型取得了最好的表现,并且本文开源了数据集和代码。此外,本文还介绍了其他参与系统的表现和最常用的方法。
  • 相关研究
    在这个领域中,最近的相关研究包括:'A Survey of Semantic Textual Similarity Approaches','Multi-Task Learning for Textual Similarity: A Survey','Learning Cross-Lingual Sentence Representations via a Multi-task Dual-Encoder Model'等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论