News Deja Vu: Connecting Past and Present with Semantic Search

2024年06月21日
  • 简介
    社会科学家和普通公众通常通过将当代事件与过去进行比较来分析,这个过程由于历史文本的庞大、嘈杂和非结构化的特点而变得复杂。例如,数亿页历史报纸扫描件已经被嘈杂地转录。传统的稀疏方法,例如使用关键词进行搜索,可能会因为复杂的词汇和OCR噪声而变得脆弱。本研究介绍了一种新型语义搜索工具News Deja Vu,它利用变压器大型语言模型和双编码器方法,识别与现代新闻查询最相似的历史新闻文章。News Deja Vu首先识别并遮盖实体,以便关注更广泛的相似之处,而不是正在讨论的具体命名实体。然后,通过对比训练的轻量级双编码器检索与现代查询在语义上最相似的历史文章,展示了看似独特于现在的现象具有多样化的历史先例。News Deja Vu针对社会科学家,用户友好,设计用于那些缺乏深度学习广泛熟悉的人。它适用于大型文本数据集,并展示了如何将其部署到大规模的历史开源新闻文章语料库中。虽然人类专业知识仍然对于深入洞察非常重要,但News Deja Vu为探索人们如何感知过去和现在之间的相似之处提供了强大的工具。
  • 图表
  • 解决问题
    如何在大规模历史文本数据中,通过语义搜索找到与现代新闻查询最相似的历史新闻文章?
  • 关键思路
    使用transformer大型语言模型和双编码器方法,识别历史新闻文章中与现代查询最相似的文章。首先识别和屏蔽实体,然后使用对比训练的轻量级双编码器检索历史文章。这种方法可以揭示现象在历史上的变化和相似之处。
  • 其它亮点
    该方法可用于大型文本数据集,论文提供了易于使用的用户友好的工具包。实验使用历史开源新闻文章进行了演示,并且作者开源了代码。该方法为社会科学家提供了一个强大的工具,可以探索人们如何看待过去和现在之间的相似之处。
  • 相关研究
    相关研究包括使用传统的关键词搜索方法,但这种方法在复杂词汇和OCR噪声存在的情况下不够稳健。另外,还有一些研究使用深度学习方法来处理历史文本数据,例如使用卷积神经网络进行历史文本分类。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论