Fundus: A Simple-to-Use News Scraper Optimized for High Quality Extractions

向作者提问

NEW

简介

本文介绍了一个名为Fundus的用户友好型新闻爬虫，用户只需使用几行代码即可获取数百万篇高质量的新闻文章。与现有的新闻爬虫不同的是，我们使用手工制作的定制内容提取器，这些提取器专门针对每个支持的在线报纸的格式指南进行了定制。这使我们能够优化我们的爬取质量，使得检索到的新闻文章在文本上是完整的，没有HTML格式的残留。此外，我们的框架将爬取(从Web或大型Web档案中检索HTML)和内容提取结合成一个单一的流程。通过为预定义的报纸集合提供统一的接口，我们旨在使Fundus即使对非技术用户也易于使用。本文概述了框架，讨论了我们的设计选择，并针对其他流行的新闻爬虫进行了比较评估。我们的评估表明，Fundus比以前的工作产生了更高质量的提取(完整和无残留的新闻文章)。该框架可在GitHub上找到https://github.com/flairNLP/fundus，并且可以使用pip简单地安装。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文的问题是如何设计一个用户友好的新闻爬取器，通过手工制作的内容提取器来优化新闻爬取的质量，使得检索到的新闻文章完整且没有HTML格式的瑕疵。
关键思路

本论文的关键思路是将爬取和内容提取结合在一个流程中，使用手工制作的内容提取器来优化新闻爬取的质量，以获得完整且没有HTML格式瑕疵的新闻文章，并提供一个预定义的报纸集合的统一接口，使得非技术用户也能使用。
其它亮点

本论文的亮点是使用手工制作的内容提取器来优化新闻爬取的质量，使得检索到的新闻文章完整且没有HTML格式的瑕疵。此外，论文还提供了一个预定义的报纸集合的统一接口，使得非技术用户也能使用。论文的实验结果表明，相比于其他新闻爬取器，本论文的方法能够获得更高质量的新闻文章。该框架已经在GitHub上开源，并且可以通过pip进行简单安装。
相关研究

在最近的研究中，还有一些与本论文相关的研究，例如："Newspaper3k: Article scraping & curation" 和 "Scrapy: An open source and collaborative web crawling framework"。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问