Semantically Enriched Cross-Lingual Sentence Embeddings for Crisis-related Social Media Texts

2024年03月25日
  • 简介
    通过对危机相关社交媒体文本进行语义搜索和聚类等任务,可以增强我们对危机话语的理解,有助于决策和有针对性的干预。预先训练的语言模型在危机信息学中的表现已经得到了提高,但它们的上下文嵌入缺乏语义意义。尽管CrisisTransformers系列包括一个句子编码器来解决语义问题,但它仍然是单语言的,只能处理英文文本。此外,为不同语言使用单独的模型会导致嵌入到不同的向量空间中,这在比较多语言文本之间的语义相似性时会带来挑战。因此,我们提出了多语言句子编码器(CT-XLMR-SE和CT-mBERT-SE),用于嵌入50多种语言的危机相关社交媒体文本,使具有相似含义的文本在同一向量空间内紧密相邻,无论语言多样性如何。句子编码和句子匹配任务的结果是令人满意的,表明这些模型可以作为嵌入多语言危机相关社交媒体文本的强大基线。这些模型可以在以下网址公开获得:https://huggingface.co/crisistransformers。
  • 图表
  • 解决问题
    本论文旨在解决危机信息学中的多语言文本嵌入问题,提出了多语言句子编码器 CT-XLMR-SE 和 CT-mBERT-SE,使得具有相似含义的多语言文本在同一向量空间中,便于比较语义相似性。
  • 关键思路
    论文提出了多语言句子编码器 CT-XLMR-SE 和 CT-mBERT-SE,可以将多语言危机相关社交媒体文本嵌入到同一向量空间中。这种方法可以提高多语言文本的语义相似性比较效果。
  • 其它亮点
    论文使用了危机相关社交媒体文本数据集,实验结果表明 CT-XLMR-SE 和 CT-mBERT-SE 的性能表现优异。模型已经在 Hugging Face 平台上开源。
  • 相关研究
    最近的相关研究包括使用预训练语言模型进行危机信息学的研究,但这些模型的上下文嵌入缺乏语义意义。此外,使用不同语言的单独模型会导致嵌入到不同的向量空间中,这在比较多语言文本的语义相似性时会带来挑战。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论