- 简介本文介绍了一个名为Fundus的用户友好型新闻爬虫,用户只需使用几行代码即可获取数百万篇高质量的新闻文章。与现有的新闻爬虫不同的是,我们使用手工制作的定制内容提取器,这些提取器专门针对每个支持的在线报纸的格式指南进行了定制。这使我们能够优化我们的爬取质量,使得检索到的新闻文章在文本上是完整的,没有HTML格式的残留。此外,我们的框架将爬取(从Web或大型Web档案中检索HTML)和内容提取结合成一个单一的流程。通过为预定义的报纸集合提供统一的接口,我们旨在使Fundus即使对非技术用户也易于使用。本文概述了框架,讨论了我们的设计选择,并针对其他流行的新闻爬虫进行了比较评估。我们的评估表明,Fundus比以前的工作产生了更高质量的提取(完整和无残留的新闻文章)。该框架可在GitHub上找到https://github.com/flairNLP/fundus,并且可以使用pip简单地安装。
-
- 图表
- 解决问题本论文的问题是如何设计一个用户友好的新闻爬取器,通过手工制作的内容提取器来优化新闻爬取的质量,使得检索到的新闻文章完整且没有HTML格式的瑕疵。
- 关键思路本论文的关键思路是将爬取和内容提取结合在一个流程中,使用手工制作的内容提取器来优化新闻爬取的质量,以获得完整且没有HTML格式瑕疵的新闻文章,并提供一个预定义的报纸集合的统一接口,使得非技术用户也能使用。
- 其它亮点本论文的亮点是使用手工制作的内容提取器来优化新闻爬取的质量,使得检索到的新闻文章完整且没有HTML格式的瑕疵。此外,论文还提供了一个预定义的报纸集合的统一接口,使得非技术用户也能使用。论文的实验结果表明,相比于其他新闻爬取器,本论文的方法能够获得更高质量的新闻文章。该框架已经在GitHub上开源,并且可以通过pip进行简单安装。
- 在最近的研究中,还有一些与本论文相关的研究,例如:"Newspaper3k: Article scraping & curation" 和 "Scrapy: An open source and collaborative web crawling framework"。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流