MIND Your Language: A Multilingual Dataset for Cross-lingual News Recommendation

2024年03月26日
  • 简介
    数字新闻平台使用新闻推荐器作为主要工具来满足读者的个性化信息需求。尽管网络社区日益多样化,许多互联网用户会使用多种语言阅读新闻,但是大多数新闻推荐仍然集中在主要的、资源丰富的语言,尤其是英语。此外,几乎所有的新闻推荐都假定新闻是单语言消费,而越来越多的用户倾向于使用至少两种语言获取信息。因此,现有的新闻推荐工作缺乏公开的多语言基准数据集,这些数据集可以促进在多语言环境和低资源语言中有效开发新闻推荐器。为了填补这一空白,我们介绍了xMIND,这是一个开放的、多语言的新闻推荐数据集,使用机器翻译从英语MIND数据集中派生而来,涵盖了14种语言和地理多样性,数字足迹大小不同。使用xMIND,我们系统地对几种最先进的基于内容的神经新闻推荐器(NNR)进行了评估,包括零样本(ZS-XLT)和少样本(FS-XLT)跨语言转移场景,考虑单语言和双语言新闻消费模式。我们的研究发现,即使基于多语言语言模型,目前的NNR在ZS-XLT下也存在显著的性能损失,而在FS-XLT训练中加入目标语言数据的效果有限,特别是与双语新闻消费相结合时。因此,我们的研究结果需要更广泛的多语言和跨语言新闻推荐研究。xMIND数据集可在https://github.com/andreeaiana/xMIND上获得。
  • 图表
  • 解决问题
    如何在多语言环境下有效地进行新闻推荐?当前的新闻推荐系统主要针对英语等主要语言,缺乏适用于低资源语言和多语言环境的公开数据集和有效算法。
  • 关键思路
    提出了一个多语言新闻推荐数据集xMIND,并使用机器翻译从英语MIND数据集转化而来,包括14种语言,涵盖不同大小的数字足迹。使用xMIND数据集,对几种最先进的基于内容的神经新闻推荐器进行了系统基准测试,在零-shot和few-shot跨语言转移场景下考虑了单语和双语新闻消费模式。发现当前的神经新闻推荐器在零-shot跨语言转移下表现不佳,而在few-shot转移中加入目标语言数据的效果有限,特别是在双语新闻消费中。因此,需要在多语言和跨语言新闻推荐领域开展更广泛的研究。
  • 其它亮点
    提出了一个新的多语言新闻推荐数据集xMIND,并使用多种神经新闻推荐器进行了系统基准测试。实验结果表明,当前的神经新闻推荐器在零-shot跨语言转移下表现不佳,而在few-shot转移中加入目标语言数据的效果有限,特别是在双语新闻消费中。xMIND数据集已经开源。
  • 相关研究
    在跨语言新闻推荐领域,最近的相关研究包括:《Cross-lingual News Recommendation Using Heterogeneous Graph Neural Network》、《Multilingual News Recommendation with Bilingual Attention Graph Neural Network》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论