Fundus: A Simple-to-Use News Scraper Optimized for High Quality Extractions

向作者提问

NEW

简介

本文介绍了一种名为Fundus的用户友好型新闻爬取器，它可以让用户只需几行代码就能获取数百万篇高质量的新闻文章。与现有的新闻爬取器不同，我们使用手工制作的定制内容提取器，这些提取器专门针对每个支持的在线报纸的格式指南进行了定制。这使我们能够优化我们的爬取质量，以便检索到的新闻文章是完整的文本，没有HTML残留。此外，我们的框架将爬取（从Web或大型Web存档中检索HTML）和内容提取结合成一个单一的流程。通过为预定义的报纸集合提供统一的接口，我们旨在使Fundus即使对非技术用户也易于使用。本文概述了该框架，讨论了我们的设计选择，并对其他流行的新闻爬取器进行了比较评估。我们的评估表明，Fundus提取的质量（完整且无残留的新闻文章）显著高于之前的工作。该框架可在GitHub上获得，网址为https://github.com/flairNLP/fundus，并且可以使用pip进行简单安装。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在介绍一个名为Fundus的用户友好型新闻爬取工具，旨在通过几行代码获取数百万条高质量新闻文章。该工具使用手动制作的内容抽取器，针对每个支持的在线报纸的格式指南进行特定定制，以优化爬取质量，使得检索到的新闻文章在文本上完整且没有HTML残留。此外，该框架将爬取（从Web或大型Web存档中检索HTML）和内容抽取合并为单个流程。通过为预定义的报纸集合提供统一接口，即使对于非技术用户，我们也旨在使Fundus广泛可用。
关键思路

本论文的关键思路是使用手动制作的内容抽取器，针对每个支持的在线报纸的格式指南进行特定定制，以优化爬取质量，同时将爬取和内容抽取合并为单个流程，从而提供一个统一接口。
其它亮点

本论文的亮点包括：使用手动制作的内容抽取器，针对每个支持的在线报纸的格式指南进行特定定制，以优化爬取质量；将爬取和内容抽取合并为单个流程，提供一个统一接口；实验结果表明，与现有工作相比，Fundus提取的新闻文章质量更高；该框架已在GitHub上开源，可以使用pip进行安装。
相关研究

近期在这个领域中的相关研究包括：Scrapy、Newspaper、BeautifulSoup等新闻爬取工具。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问