MCFEND: A Multi-source Benchmark Dataset for Chinese Fake News Detection

2024年03月14日
  • 简介
    在各种在线信息来源中,虚假新闻的流行对公众产生了重要影响。现有的中文虚假新闻检测数据集仅限于来自微博的新闻。然而,来自多个来源的虚假新闻在各个方面(包括内容和社会背景)都呈现出多样性。仅在单一新闻来源上训练的方法几乎无法应用于实际情况。我们的试验表明,学习自大型中文虚假新闻检测数据集Weibo-21的最先进方法的F1分数,在测试数据改为多源新闻数据时,从0.943显著下降至0.470,未能识别超过三分之一的多源虚假新闻。为了解决这个限制,我们构建了中文虚假新闻检测的第一个多源基准数据集,称为MCFEND,其中包括我们从社交平台、消息应用和传统在线新闻媒体等各种来源收集的新闻。值得注意的是,这些新闻已经被全球14个权威的事实核查机构核实。此外,我们在跨来源、多来源和未知来源的方式下,对各种现有的中文虚假新闻检测方法进行了全面评估。作为一个基准数据集,MCFEND旨在推动中文虚假新闻检测方法在实际情况下的发展。
  • 图表
  • 解决问题
    论文旨在解决中国多源假新闻检测的问题,现有数据集仅限于单一新闻源,无法应用于实际场景。
  • 关键思路
    构建了第一个多源假新闻检测基准数据集MCFEND,该数据集包含来自多个社交平台、消息应用和传统在线新闻媒体的新闻,并由全球14个权威事实核查机构进行了事实核查。
  • 其它亮点
    论文评估了现有的多种中文假新闻检测方法在MCFEND数据集上的表现,并提出了跨源、多源和未见过源的评估方式。实验结果表明,现有方法在多源数据上的表现明显下降,需要更好的解决方案。
  • 相关研究
    与此相关的研究包括《A Survey on Detection Methods of Fake News》、《A Survey of Fake News: Fundamental Research Questions》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论