A Multilingual Similarity Dataset for News Article Frame

简介

了解新闻文章的写作框架对于解决社会问题至关重要，因此在传播学领域引起了显着关注。然而，由于缺乏一个考虑新闻内容全面细微差别的具体和统一的标准数据集，评估此类新闻文章框架仍然是一个挑战。为了解决这个问题，我们介绍了一个扩展版本的大型标记新闻文章数据集，其中包括16,687个新的标记对。利用新闻文章的成对比较，我们的方法解放了传统新闻框架分析研究中手动识别框架类别的工作。总体而言，我们介绍了迄今为止最广泛的跨语言新闻文章相似性数据集，涵盖10种语言的26,555个标记新闻文章对。每个数据点都根据一个代码簿进行了细致的注释，该代码簿详细说明了新闻内容的八个关键方面，采用了人机互动的框架。应用示例展示了它在发掘全球新闻报道中的国家社区、揭示新闻媒体偏见以及量化与新闻创作相关的因素方面的潜力。我们预计，这个新闻相似性数据集将扩大我们对媒体生态系统的理解，涉及到不同国家、地点、语言和其他社会构造的事件和观点的新闻报道。通过这样做，它可以促进社会科学研究和应用方法的进步，从而对我们的社会产生深远的影响。
图表
解决问题

论文旨在解决新闻框架分析中缺乏具体和统一标准数据集的问题，提出了一个包含多语言新闻文章相似性数据集的解决方案。
关键思路

利用新闻文章的配对比较，构建一个人机交互框架下的包含8个关键方面的代码书的数据集，以解决传统新闻框架分析研究中手动识别框架类别的问题。
其它亮点

该数据集包含10种语言的26,555个标记的新闻文章对，可用于揭示全球新闻报道中的国家社区、暴露新闻媒体的偏见、量化与新闻创作相关的因素等。该数据集的开发有助于推动社会科学研究和应用方法的进步。
相关研究

在相关研究方面，目前还没有类似的跨语言新闻文章相似性数据集。

A Multilingual Similarity Dataset for News Article Frame

评论