- 简介本文介绍了POLygraph数据集,这是一个用于检测波兰语假新闻的独特资源。该数据集由跨学科团队创建,由两部分组成:包含11,360对新闻文章(通过其URL标识)及其相应标签的“真假”数据集,以及包含5,082篇新闻文章(通过其URL标识)和评论它们的推文的“他们说是假新闻”数据集。与现有数据集不同,POLygraph涵盖了来自源文献的各种方法,为检测假新闻提供了全面的资源。该数据是通过专家和非专家注释员的手动注释收集的。该项目还开发了一种使用先进机器学习技术分析数据并确定内容真实性的软件工具。该工具和数据集预计将惠及各种实体,从公共部门机构到出版商和事实核查组织。进一步数据集探索将促进假新闻检测并潜在地刺激在其他语言中实施类似模型。本文着重介绍了数据集的创建和组成,因此未包括有关内容真实性分析软件工具的详细评估,该评估计划在项目的后期进行。
- 图表
- 解决问题解决问题:该论文旨在提供一个独特的资源,即POLygraph数据集,用于在波兰语中检测假新闻。该数据集是由跨学科团队创建的,旨在提供综合的资源,以便检测假新闻。
- 关键思路关键思路:该论文的关键思路是创建一个包含各种来源文献的数据集,通过人工注释和机器学习技术来分析数据并确定内容的真实性。
- 其它亮点其他亮点:该论文提出了一个新的数据集POLygraph,包括11,360对新闻文章和相应的标签,以及5,082篇新闻文章和评论它们的推文。该数据集的创建是通过手动注释,涵盖了各种来源文献。该论文还开发了一个软件工具,使用先进的机器学习技术来分析数据并确定内容的真实性。该工具和数据集预计将受益于各种实体,从公共部门机构到出版商和事实检查组织。
- 相关研究:最近的相关研究包括“Fake News Detection on Social Media: A Data Mining Perspective”和“Fake News Detection on Social Media using Geolocation Information”等论文。
沙发等你来抢
去评论
评论
沙发等你来抢